Prediction of metabolomic and transcriptomic patient profiles

URN zum Zitieren dieses Dokuments:: urn:nbn:de:bvb:355-epub-234621
DOI zum Zitieren dieses Dokuments:: 10.5283/epub.23462

Appel, Inka

Vorschau

Lizenz: Veröffentlichungsvertrag für Publikationen ohne Print on Demand
PDF
(22MB)

Veröffentlichungsdatum dieses Volltextes: 16 Aug 2012 09:44

Details

Dokumentenart:	Hochschulschrift der Universität Regensburg (Dissertation)
Open Access Art:	Primärpublikation
Datum:	16 August 2012
Begutachter (Erstgutachter):	Prof. Dr. Wolfram Gronwald und Prof. Dr. Rainer Spang
Tag der Prüfung:	3 Februar 2012
Institutionen:	Biologie und Vorklinische Medizin
Themenverbund:	Nicht ausgewählt
Stichwörter / Keywords:	Classification of disease, metabolomics, molecular diagnosis, metabolic fingerprinting
Dewey-Dezimal-Klassifikation:	500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie 600 Technik, Medizin, angewandte Wissenschaften > 610 Medizin
Status:	Veröffentlicht
Begutachtet:	Ja, diese Version wurde begutachtet
An der Universität Regensburg entstanden:	Ja
Dokumenten-ID:	23462

Vorschau

Bibliographische Daten exportieren

Zusammenfassung (Englisch)

Zusammenfassung (Englisch)

Genetic and environmental conditions lead to global changes in the chemical composition of biological systems. The extended analysis of cellular metabolic pathway products gives insights into the functionality of enzymes in normal and pathological conditions. In the last years, metabolomics acquired an important role in detecting prognostic factors for various diseases including polycystic kidney disease.
Effective methods employed for metabolomic studies are nuclear magnetic resonance (NMR) spectroscopy and coupling two-dimensional gas chromatography with time-of-flight mass spectrometry (GCxGC-TOF-MS).
For both technologies, software exists that detects signals within the raw data as candidates for metabolites. Some of these candidates are verified as metabolites by comparison to a metabolite library, many remain unknown. The metabolite candidates and the number of metabolite candidates vary across different measurements. While NMR covers up to 150 metabolites, GCxGC-TOF-MS detects thousands of metabolites in one measurement. Hence, combining different measurements by GCxGC-TOF-MS is ambitious and required to apply statistical methods and machine learning techniques.
Thus, we developed the integrative normalization and comparative analysis software tool INCA. INCA automatically identifies equal metabolite candidates among different measurements and combines them into one data matrix. The alignment algorithm is validated by an spike-in experiment and successfully applied to various metabolomic datasets. A commercial software tool was provided one year after completion of INCA. It is based on similar parameters and performs comparable.

Not only the detection of new prognostic factors is of interest but also the prediction of treatment response or disease status. Autosomal polycystic kidney disease (ADPKD) is a frequent cause of kidney failure. It is usually diagnosed at a progressed stage of renal cystic transformation due to a lack of reliable laboratory tests early in the disease. Hence, the prognosis of patients to develop ADPKD is challenging.
In terms of classification, prognosis is associated with the probability for developing the disease. Healthy patients and patients where the disease is reliably diagnosed are used to learn a classifier. This classifier consists of a set of features that defines a decision rule separating the healthy from the diseased, and assigning a new patient to the correct class with high probability. In microarray based classification, the performance of classification algorithms has been analyzed in great detail. However, little attention has been given to the usefulness of probability estimates and this is even more true for metabolomic analyses. Thus, I developed probability estimation methods based on local errors and compared them to existing methods from gene expression profiling, text categorization and digit recognition.
I show that the local error based methods perform superior to more widely used methods, the PAM program, binary regression, and Compound Bayes classifiers. Especially the PAM approach performs poorly because its probability estimates depend on the number of selected features. I recommend not to make use of these estimates in the context of clinical diagnosis of patients. Although the estimators are evaluated on metabolomics data, I believe that similar results are obtained for different forms of clinical diagnosis based on high dimensional readouts, e.g. proteomic or transcriptomic profiling data. From the perspective of probability estimation the effective dimensionality is that of the feature signature and not that of the original data set. The dimensionality of gene expression based signatures described in the literature is well comparable to the metabolomics dataset.

Übersetzung der Zusammenfassung (Deutsch)

Genetische Faktoren und Umwelteinflüsse verändern die chemischen Zusammensetzung biologischer Systeme global. Eine detaillierte Analyse zellulärer Stoffwechselprodukte bei normalen und pathologischen Bedingungen gibt Einblicke in die Funktionalität von Enzymen und anderen Metaboliten. In jüngster Zeit erfährt die Untersuchung von Metaboliten und deren Zusammenspiel bei der Detektierung prognostischer Faktoren verschiedenster Krankheiten, wie zum Beispiel Zystennieren, erhöhte Aufmerksamkeit.

Nukleare Magnetresonanzspektroskopie (NMR) und das Koppeln von zwei-dimensionaler Gaschromatographie an Flugzeitmassenspektrometrie (GCxGC-TOF-MS) werden erfolgreich bei metabolomischen Studien angewandt. Für beide Technologien gibt es Software, die in den Rohdaten potentielle Metabolite identifiziert. Einige dieser Kandidaten werden durch einen Abgleich mit einer Datenbank als Metabolite erkannt, viele bleiben unbekannt. Die Metabolitkandidaten und die Anzahl der Metabolitkandidaten ist in verschiedenen Messungen unterschiedlich. NMR kann bis zu 150 Metabolite in einer Messung identifizieren, GCxGC-TOF-MS mehrere Tausend. Das Verknüpfen verschiedener Messungen ist somit eine Herausforderung, aber unumgänglich vor dem Auswerten der Daten mittels statistischer Methoden und Techniken des maschinellen Lernens.
Zu diesem Zweck habe ich die Software INCA, kurz für "Integrative Normalization and Comparative Analysis", entwickelt. INCA erkennt automatisch gleiche Metabolitkandidaten über verschiedene Messungen hinweg und fasst diese in einer Datenmatrix zusammen. Der Alignmentalgorithmus wird durch ein Spike-In-Experiment validiert und erfolgreich auf verschiedene metabolomische Datensätze angewendet. Ein Jahr nach der Veröffentlichung von INCA wurde von Dritten eine kommerzielle Software angeboten. Diese basiert auf ähnlichen Parametern und erzielt vergleichbare Resultate.

Nicht nur die Identifizierung neuer prognostischer Faktoren ist wichtig, sondern auch das Vorhersagen einer Therapieantwort oder des Krankheitsstadiums. Autosomale polyzystische Nieren (ADPKD) sind ein häufiger Grund für Nierenversagen. In der Regel wird die Krankheit erst in einem fortgeschrittenen Stadium der Zystennierentransformation diagnostiziert. ADPKD bei nierenkranken Patienten früh zu diagnostizieren ist eine Herausforderung.
Im Bereich Klassifikation wird die Prognose mit der Wahrscheinlichkeit assoziiert zu erkranken. Messungen von gesunden und kranken Patienten werden benutzt, um einen Klassifikator zu lernen. Dieser Klassifikator besteht aus einer Menge von Eigenschaften, die die gesunden von den kranken Patienten trennt, und einen neuen Patienten mit hoher Wahrscheinlichkeit in die richtige Klasse einordnen kann. Bei der Klassifikation von Microarraydaten ist die Performance der Klassifikationsalgorithmen bereits detailliert untersucht. Jedoch wurde die Verlässlichkeit von geschätzten Wahrscheinlichkeiten besonders bei metabolomischen Analysen wenig untersucht. Ich habe Schätzmethoden für Diagnosewahrscheinlichkeiten entwickelt, die auf lokalen Fehlern basieren, und mit bekannten Methoden verglichen, die aus den Bereichen der Mustersuche in Genexpressionsdaten, Textkategorisierung und Ziffernerkennung stammen.
Ich zeige, dass Methoden, die auf lokalen Fehlern basieren, besser sind als weit verbreitete Methoden, wie das PAM-Programm, binäre Regression und Compound-Klassifikatoren. Besonders PAM schneidet schlecht ab, da seine Wahrscheinlichkeiten von der Anzahl der ausgewählten Eigenschaften abhängen. Ich empfehle diese Schätzungen nicht im Kontext klinischer Diagnose von Patienten zu verwenden. Im Rahmen dieser Arbeit werden die Schätzer auf metabolomischen Daten ausgewertet und verglichen. Trotzdem lassen sich ähnliche Resultate für verschiedene Formen von klinischer Diagnose hochdimensionaler Daten, zum Beispiel proteomische oder transkriptomische Daten zur Mustersuche, erzielen. Von der Perspektive des Wahrscheinlichkeitschätzens ist die effektive Dimensionalität der Genexpressionssignaturen, wie sie in der Literatur beschrieben wird, gut vergleichbar mit der metabolomischer Datensätze.

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

Downloadstatistik

Weitere Literatur (mittels CORE)

Details

Vorschau

Bibliographische Daten exportieren

Zusammenfassung (Englisch)

Zusammenfassung (Englisch)

Übersetzung der Zusammenfassung (Deutsch)

Übersetzung der Zusammenfassung (Deutsch)

Downloadstatistik

Downloads

Weitere Literatur (mittels CORE)

Universitätsbibliothek