Peak intensity prediction in mass spectra using machine learning methods

Timm, Wiebke

Titelaufnahme

Titel
Peak intensity prediction in mass spectra using machine learning methods
Verfasser
Timm, Wiebke
Gutachter
Nattkemper, Tim Wilhelm
Erschienen
2008
Sprache
Englisch
Dokumenttyp
Dissertation
Schlagwörter
Proteomanalyse / Flugzeitmassenspektrometrie / MALDI-MS / Maschinelles Lernen / Data Mining / Bioinformatik / Quantitative proteomics / Mass spectrometry / Machine learning / Feature selection
URN
urn:nbn:de:hbz:361-13706

Zugriffsbeschränkung

Das Dokument ist frei verfügbar

Links

Social Media

Share
Nachweis
Katalog.plus
IIIF
IIIF-Manifest

Dateien

Peak intensity prediction in mass spectra using machine learning methods [pdf 7.67 mb]
RIS

Klassifikation

Klassifikation (DDC) → Naturwissenschaften und Mathematik → Biowissenschaften; Biologie → Biowissenschaften; Biologie

Zusammenfassung

Massenspektrometrie ist heutzutage unersetzlich, um Proteine und Peptide in komplexen biologischen Proben schnell zu untersuchen. Das Hauptproblem bei der quantitativen Analyse mit Methoden der Massenspektrometrie ist dabei die Tatsache, dass die Empfindlichkeit von Massenspektrometern prinzipbedingt peptidabhängig ist. Daher ist die Beziehung zwischen beobachteten Peakintensitäten und den entsprechenden Peptidkonzentrationen in der Probe unklar. Es gibt verschiedene Ansätze, dieses Problem durch Labeling-Techniken zu umgehen. Allerdings sind diese Techniken extrem teuer und zeitaufwändig in der Anwendung. Wenn man die peptidabhängige Empfindlichkeit verlässlich vorhersagen könnte, dann könnte man einen peptidabhängigen Korrekturfaktor berechnen, wodurch die Genauigkeit von absoluten Quantifizierungstechniken ohne den Einsatz von Labeling-Techniken (label-free absolute quantitation) verbessert werden könnte.
In dieser Arbeit beschäftige ich mich mit der Frage, ob es möglich ist, die peptidspezifische Empfindlichkeit eines Massenspektrometers zu modellieren. Zu diesem Zweck wird mithilfe von Datensätzen eines Matrix-Assisted Laser Desorption Ionization (MALDI)-Massenspektrometers ein Verfahren entwickelt, das Simulation und Überwachte Lernverfahren kombiniert. Der zweite Teil der Arbeit hat zum Ziel, jene Peptideigenschaften zu ermitteln, die den größten Einfluß auf die peptidspezifischen Empfindlichkeiten haben.
Diese Arbeit stellt einen wichtigen Schritt dar, um die Genaugkeit Label-freier Quantifizierung mithilfe von Massenspektrometrie zu verbessern: Ich zeige, dass die Vorhersage der peptidabhängigen Empfindlichkeit tatsächlich möglich ist, sogar mit nur wenig Daten. Das beste hier vorgestellte Verfahren erreicht eine signifikante quadratische Pearson-Korrelation von 0,46 in einer zehnfachen Kreuzvalidierung (ten-fold cross-validation). Wissensextraktion mit Feature Selection-Methoden deckt sowohl bereits bekannte als auch neue Peptid-Eigenschaften auf, die für das Problem relevant sind. Im Zuge dessen wird Least-Angle Regression, eine moderne Feature Selection-Technik, evaluiert und als geeignet befunden, auch auf verrauschten Daten gute Ergebnisse zu erzielen.

Abstract

Mass spectrometry (MS) is an indispensable technique for the fast analysis of proteins and peptides in complex biological samples. One key problem with the quantitative mass spectrometric analysis of peptides and proteins, however, is the fact that the sensitivity of MS instruments is peptide-dependent, leading to an unclear relationship between the observed peak intensity and the peptide concentration in the sample. Various labeling techniques have been developed to circumvent this problem, but are very expensive and time-consuming. A reliable prediction of peptide-specific sensitivies could provide a peptide-specific correction factor, which would be valuable for label-free absolute quantitation.
In this work, I analyze if modeling of peptide-specific sensitivities of unkonwn proteins is feasible. For this purpose, a combined simulation and supervised learning approach is developed using datasets from matrix-assisted laser desorption ionization (MALDI). As a second main focus, I deal with the question which peptide properties have the most influence on peptide-specific sensitivities.
This work constitutes an important step to enhance label-free quantification accuracy: I show that the prediction of peptide-specific sensitivities is indeed feasible even on a small dataset. A significant Pearson's squared correlation of 0.46 in ten-fold cross-validation is reached with support vector regression. Knowledge extraction with feature selection methods leads to the rediscovery of known as well as new properties that are relevant for this problem. Least-angle regression, a modern feature selection technique, is evaluated for this purpose among others, and is shown to perform comparatively well on noisy MS data.

Inhalt

Inhalt des Werkes

Statistik

Das PDF-Dokument wurde 6 mal heruntergeladen.

Detailsuche

Bibliotheken

Projekt

Impressum

Datenschutz

Titelaufnahme