| Lizenz: Creative Commons Namensnennung 4.0 International (18MB) |
- URN zum Zitieren dieses Dokuments:
- urn:nbn:de:bvb:355-epub-451957
- DOI zum Zitieren dieses Dokuments:
- 10.5283/epub.45195
Dokumentenart: | Hochschulschrift der Universität Regensburg (Dissertation) |
---|---|
Open Access Art: | Primärpublikation |
Datum: | 22 März 2021 |
Begutachter (Erstgutachter): | Prof. Dr. Rainer Spang |
Tag der Prüfung: | 26 Februar 2021 |
Institutionen: | Medizin > Institut für Funktionelle Genomik > Lehrstuhl für Statistische Bioinformatik (Prof. Spang) Informatik und Data Science > Fachbereich Bioinformatik > Lehrstuhl für Statistische Bioinformatik (Prof. Spang) |
Stichwörter / Keywords: | B cell Lymphoma, Causal Inference, IDA, Virtual experiments, normalization |
Dewey-Dezimal-Klassifikation: | 000 Informatik, Informationswissenschaft, allgemeine Werke > 004 Informatik 500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie |
Status: | Veröffentlicht |
Begutachtet: | Ja, diese Version wurde begutachtet |
An der Universität Regensburg entstanden: | Ja |
Dokumenten-ID: | 45195 |
Zusammenfassung (Englisch)
The oncogene MYC plays an important role in B cell lymphoma pathogenesis. Despite more than 30 years of MYC research there are still open questions concerning its function and how to target MYC in lymphomagenesis. Thus, this work aims to examine the causal relationships between MYC and the transcriptome and metabolome in a B cell lymphoma cell line by computational methods. The data set covers ...
Zusammenfassung (Englisch)
The oncogene MYC plays an important role in B cell lymphoma pathogenesis. Despite more than 30 years of MYC research there are still open questions concerning its function and how to target MYC in lymphomagenesis. Thus, this work aims to examine the causal relationships between MYC and the transcriptome and metabolome in a B cell lymphoma cell line by computational methods. The data set covers RNA-seq and mass spectrometry measurements of the same cell line. The underlying data is purely observational, no intervention is needed since causal inference techniques enable virtual experiments in theory. The first part of this thesis addresses three issues: First, the analysis of the RNA-seq data from cells with overexpressed MYC is challenging since MYC is a transcriptional amplifier. There is no de novo activation of genes by the elevated MYC, but an amplification of all presently expressed genes. This behavior is accompanied with an increase in cell size and an increase of RNA amount. Thus, the comparison of lymphoma cells with a high MYC expression with normal B cells by RNA-seq standard pipelines is difficult, since current normalization methods require a constant RNA amount across samples. I present a method that uses Drosophila melanogaster cells as a spike-in to calibrate the data to the number of cells in the sample (Taruttis et al., 2017). I demonstrate that, in case of transcriptional amplification in the B cell lymphoma cell line the use of an external spike-in is mandatory to observe the global gene expression changes. Furthermore, the Drosophila melanogaster spike-in normalization outperforms other calibration methods, including the use of the commercially available ERCC spike-ins. Second, Maathuis et al. (2010) presented the first high throughput analysis of virtual intervention experiments. Their ground-breaking IDA method (Maathuis et al., 2009) will have a lasting effect on the field of systems biology. Further developments of the IDA method recommended a subsampling strategy for the estimation of causal effects from observational data (Stekhoven et al., 2012). I extend IDA and its extension CStaR by analyzing the distribution of causal effects and call the method Accumulation IDA (aIDA) (Taruttis et al., 2015). aIDA improves the prediction of causal effects in comparison to Maathuis et al. (2009) and (Stekhoven et al., 2012). Third, causal structure learning by the PC algorithm (Spirtes and Glymour, 1991; Kalisch and Bühlmann, 2007), the first step of both IDA and aIDA, assumes that the underlying structure is sparse. However, the application of the spike-in methods to B cell lymphoma data sets with MYC overexpression results in highly correlated data. Thus, the underlying causal structure is highly likely not sparse. I assume that this is a consequence of the global role of Myc in gene expression (Lin et al., 2012; Nie et al., 2012). Thus, we observe no technical artifact but a real biological process. I show that using the MMHC algorithm instead of the PC algorithm together with my accumulation method outperforms aIDA for highly correlated datasets. However, the MMHC-aIDA method breaks down, too, when the density of the underlying causal structure becomes too high. The second part of the thesis presents a causal inference analysis of a B cell lymphoma cell line. We decided for the P493-6 cell line due to its doxycycline-dependent promoter to switch MYC on or off, which allows for an examination of the causal relationships of MYC under the same epigenetic conditions. RNA-seq and mass spectrometry data are measurements of the transcriptome and the metabolome of the cell line and are the input of the causal inference analysis. I show that the selection of the method to estimate the causal effects highly depends on the data structure. While the highly correlated RNA seq dataset shows the best results with the MMHC-aIDA method, the mass spectrometry data performs well with aIDA. The analysis of RNA-seq data shows that MYC upregulates most of genes in the dataset. MYC further shows a positive causal effect on most of the metabolites. These findings are in line with the hypothesis that MYC is a transcriptional amplifier. Some of the causal effects of MYC on the transcriptome and metabolome are already known, others can be high priority candidates for future wet lab experiments.
Übersetzung der Zusammenfassung (Deutsch)
Das Onkogen MYC spielt eine wichtige Rolle in der Pathogenese von B-Zell-Lymphomen. Trotz mehr als 30 Jahren MYC-Forschung gibt es immer noch offene Fragen bezüglich seiner Funktion und wie man MYC in Lymphomen regulieren kann. Ziel dieser Arbeit ist daher, die kausalen Zusammenhänge zwischen MYC und dem Transkriptom und Metabolom in einer B-Zell-Lymphom-Zelllinie mit computergestützten Methoden ...
Übersetzung der Zusammenfassung (Deutsch)
Das Onkogen MYC spielt eine wichtige Rolle in der Pathogenese von B-Zell-Lymphomen. Trotz mehr als 30 Jahren MYC-Forschung gibt es immer noch offene Fragen bezüglich seiner Funktion und wie man MYC in Lymphomen regulieren kann. Ziel dieser Arbeit ist daher, die kausalen Zusammenhänge zwischen MYC und dem Transkriptom und Metabolom in einer B-Zell-Lymphom-Zelllinie mit computergestützten Methoden zu untersuchen. Der Datensatz umfasst RNA-seq- und Massenspektrometriemessungen der gleichen Zelllinie. Die zugrundeliegenden Daten sind reine Beobachtungsdaten, eine echte Intervention ist nicht notwendig, da kausale Inferenztechniken in der Theorie virtuelle Experimente ermöglichen. Der erste Teil dieser Arbeit befasst sich mit drei Themen: Erstens ist die Analyse der RNA-seq-Daten von Zellen mit überexprimiertem MYC eine Herausforderung, da MYC ein Transkriptionsverstärker ist. Es findet keine de-novo Aktivierung von Genen durch das erhöhte MYC statt, sondern eine Verstärkung aller bereits exprimierten Gene. Dieses Verhalten geht mit einer Zunahme der Zellgröße und einer Zunahme der RNA-Menge in der Zelle einher. Daher ist der Vergleich von Lymphomzellen mit hoher MYC-Expression mit normalen B-Zellen durch RNA-seq-Standardpipelines schwierig, weil aktuelle Normalisierungsmethoden eine konstante RNA-Menge über alle Proben hinweg erfordern. Ich stelle eine Methode vor, die Drosophila melanogaster-Zellen als Spike-in verwendet, um die Daten auf die Anzahl der Zellen in der Probe zu kalibrieren (Taruttis et al., 2017). Ich zeige, dass im Falle einer transkriptionellen Amplifikation in der B-Zell-Lymphom-Zelllinie die Verwendung eines externen Spike-in zwingend erforderlich ist, um die globalen Genexpressionsänderungen zu beobachten. Darüber hinaus übertrifft die Drosophila melanogaster-Spike-In-Normalisierung andere Kalibrierungsmethoden, einschließlich der Verwendung der kommerziell erhältlichen ERCC-Spike-Ins.
Zweitens präsentierten Maathuis et al. (2010) die erste Hochdurchsatzanalyse von virtuellen Interventionsexperimenten. Ihre bahnbrechende IDA-Methode (Maathuis et al., 2009) wird das Feld der Systembiologie nachhaltig beeinflussen. Weiterentwicklungen der IDA-Methode empfahlen eine Subsampling-Strategie für die Schätzung von kausalen Effekten aus Beobachtungsdaten (Stekhoven et al., 2012). Ich erweitere IDA und seine Erweiterung CStaR durch die Analyse der Verteilung der kausalen Effekte und nenne die Methode Accumulation IDA (aIDA) (Taruttis et al., 2015). aIDA verbessert die Vorhersage kausaler Effekte im Vergleich zu Maathuis et al. (2009) und (Stekhoven et al., 2012).
Drittens wird beim kausalen Strukturlernen durch den PC-Algorithmus (Spirtes und Glymour, 1991; Kalisch und Bühlmann, 2007), dem ersten Schritt sowohl von IDA als auch von aIDA, angenommen, dass die zugrunde liegende Struktur ein magerer Graph ist. Die Anwendung der Spike-in-Methoden auf B-Zell-Lymphom-Datensätze mit MYC-Überexpression führt jedoch zu hoch korrelierten Daten. Die zugrunde liegende kausale Struktur ist also höchstwahrscheinlich nicht mager. Vermutlich ist dies eine Folge der globalen Rolle von Myc in der Genexpression ist (Lin et al., 2012; Nie et al., 2012). Wir beobachten also kein technisches Artefakt, sondern einen realen biologischen Prozess. Ich zeige, dass die Verwendung des MMHC-Algorithmus anstelle des PC-Algorithmus zusammen mit meiner Akkumulationsmethode aIDA für hoch korrelierte Datensätze die kausale Inferenz verbessert. Allerdings bricht auch die MMHC-aIDA-Methode zusammen, wenn die Dichte der zugrunde liegenden Kausalstruktur zu hoch wird.
Im zweiten Teil der Arbeit wird eine kausale Inferenzanalyse an einer B-Zell-Lymphom-Zelllinie vorgestellt. Wir haben uns für die Zelllinie P493-6 entschieden, da sie einen Doxycyclin-abhängigen Promotor besitzt, der MYC an- oder abschaltet, was eine Untersuchung der kausalen Zusammenhänge von MYC unter den gleichen epigenetischen Bedingungen ermöglicht. Transkriptom und Metabolom der Zelllinie werden mittels RNA-seq- und Massenspektrometriedaten beschrieben. Diese Daten bilden den Input der Kausalen-Inferenz-Analyse. Ich zeige, dass die Wahl der Methode zur Schätzung der kausalen Effekte stark von der Datenstruktur abhängt. Während der hochkorrelierte RNA-seq-Datensatz die besten Ergebnisse mit der MMHC-aIDA-Methode zeigt, schneiden die Massenspektrometriedaten mit aIDA gut ab. Die Analyse der RNA-seq-Daten zeigt, dass MYC die meisten Gene im Datensatz hochreguliert. MYC zeigt außerdem einen positiven kausalen Effekt auf die meisten Metaboliten. Diese Ergebnisse stehen im Einklang mit der Hypothese, dass MYC ein Transkriptionsverstärker ist. Einige der kausalen Zusammenhänge zwischen MYC und dem Transkriptom und de Metabolom sind bereits bekannt, andere können vielversprechende Kandidaten für zukünftige Wet-Lab-Experimente sein.
Metadaten zuletzt geändert: 22 Mrz 2021 13:05