Towards the identification of regulatory networks using statistical and information theoretical methods on the mammalian transcriptome

URN zum Zitieren dieses Dokuments:: urn:nbn:de:bvb:355-epub-132049
DOI zum Zitieren dieses Dokuments:: 10.5283/epub.13688

Lutter, Dominik Ralph Lionel

Vorschau

Lizenz: Veröffentlichungsvertrag für Publikationen mit Print on Demand
PDF
(4MB)

Veröffentlichungsdatum dieses Volltextes: 20 Apr 2010 13:22

Details

Dokumentenart:	Hochschulschrift der Universität Regensburg (Dissertation)
Open Access Art:	Primärpublikation
Datum:	20 April 2010
Begutachter (Erstgutachter):	Prof. Dr. Elmar W. Lang und Prof. Dr. Fabian J. Theis und Prof. Dr. Reinhard Sterner
Tag der Prüfung:	9 November 2009
Institutionen:	Medizin > Lehrstuhl für Klinische Chemie und Laboratoriumsmedizin Biologie und Vorklinische Medizin > Institut für Biophysik und physikalische Biochemie > Prof. Dr. Elmar Lang Biologie und Vorklinische Medizin > Institut für Biophysik und physikalische Biochemie > Prof. Dr. Elmar Lang > Arbeitsgruppe Dr. Fabian Theis
Stichwörter / Keywords:	Gene expression analysis, Independent Component Analysis (ICA), clustering, microRNA, miRNA, monocytes, macrophages, microarrays, time course, cell differentation, systems biology, bioinformatics
Dewey-Dezimal-Klassifikation:	500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie
Status:	Veröffentlicht
Begutachtet:	Ja, diese Version wurde begutachtet
An der Universität Regensburg entstanden:	Ja
Dokumenten-ID:	13688

Vorschau

Bibliographische Daten exportieren

Zusammenfassung (Englisch)

Zusammenfassung (Englisch)

Our comprehension of the genetic machinery regulating the expression of thousands of different genes controlling cell differentiation or responding to various external signals is still highly incomplete. Furthermore, recently discovered regulatory mechanisms like those mediated by microRNAs expand our knowledge but also add an additional layer of complexity. Since all genes are primarily transcribed into RNA, the genetic activity of gene differential expression can be estimated by measuring the RNA expression. Several techniques to measure large scale gene expression on the basis of RNA have been developed. In this work, data generated with the microarray technology, one of the most commonly used methods, were analyzed towards extracting novel biological regulatory structures.
In this work, several aspects on the analysis of these large gene expression data are discussed. Since this is nowadays a common task, a lot has been written about various methods in all its particulars, but often from a more technical or statistical point of view. However, the aim of a biologist planning and carrying out a microarray experiment lies on the acquisition of novel biological findings. In fact, there is still a gap between the experimentalists and the methods developing community. The experimentalists are often not too familiar with the latest fancy method based on modern statistics as it is used in e.g. information theory whereas the developing community normally does not deal extensively with current biological questions. Therefore, the author of this work tries to give an additional view on the field of microarray analysis and the applicability of diverse methods. Hence, the focus is to discuss commonly used methods towards their usage, the underlying biological assumptions and the possible interpretations, pros and cons. Furthermore, beyond ordinary differential gene expression analyses, this work also concentrates on an unbiased search for hidden information in gene expression patterns.
In the first section of chapter 1, a general overview about the main biological principles is given. The term transcriptome and its composition of several RNA types will be introduced. Furthermore the mechanism controlling gene expression will be presented. The chapter further explains the basic principles of microarray technology and also discusses the advantages and limitations of this method. Finally, by means of two different biological models, commonly used and a few more specialized and less popular analysis methods will be presented. In doing so, less emphasis is given on a complete and detailed mathematical description, but more on a general applicability and the biological outcome of these tools.
Chapter 2 extensively discusses the usage of a blind source separation technique, independent component analysis (ICA), on a two class microarray dataset. Monocytes extracted from human donors were differentiated into macrophages using M-CSF (Macrophage Colony-Stimulating Factor). By applying ICA to the data, so called $\textit$ {expression modes} or $\textit$ {sub-modes} could be extracted. According to referring biological annotations, these sub-modes were then combined to $\textit$ {meta modes} and elaborately discussed. In this way, several known biological signalling pathways as well as regulatory mechanism involved in monocyte differentiation could be reconstructed. Furthermore, a novel biological finding, the remaining proliferative potential of macrophages could also be identified [Lutter et al., 2008].
In chapter 3, again ICA was used, but in this case applied to time-dependent microarray data, and results were compared to a very common analysis method, hierarchical clustering. Time-dependent data was derived from human monocytes infected with the intracellular pathogen F. tularensis. Using the clustering approach, groups of genes referring to distinct timepoints were identified, and a temporal behaviour of genetic immune response could be reconstructed. In parallel, ICA was used to decompose the data into expression modes (analogously to chapter 2). These modes were then mapped on the experimental time course. Compared to the clustering results, the ICA-based reconstructed immune response was more detailed and temporal activity of distinct genes could be resolved more precisely [Lutter et al., 2009].
In the following chapter 4, three different microarray datasets were used to confirm a suggested regulatory mechanism. The observation that about 50% of all microRNAs in humans and mice are intronic and therefore coupled with the expression of protein coding genes, so-called host genes, allowed for the use of established large-scale gene expression measurement techniques to approximate microRNA expression. Since a single microRNA can regulate up to dozens of other protein-coding genes, the hypothesis that this expressional linkage includes an additional functional component was investigated. Using the ordinary clustering algorithm `hierarchical clustering' and an approach based on gene annotations, this hypothesis could be basically confirmed.

Übersetzung der Zusammenfassung (Deutsch)

Unser Verständnis der Kontrolle der genetischen Aktivität von Säugetierzellen ist bislang äußerst lückenhaft. Insbesondere die Regulierung der differentiellen Genexpression, ausgelöst durch externe oder interne Stimuli sind weitgehend unbekannt. Dazu kommt, dass immer neue Mechanismen auf unterschiedlichen Ebene entdeckt werden, wie z.B. die translationelle Inhibition durch nichtcodierende microRNAs. Da jedes Gen primär in RNA translatiert wird, eignen sich diese Molküle, um differentielle Genexpression in ihrer Gesamtheit zu erfassen. Zur experimentellen Messung der RNA sind die verschiedensten Techniken entwickelt worden. In dieser Arbeit sollen verschiedene Methoden zur Analyse von Miocroarray Daten und deren Tauglichkeit zur Neugewinnung von biologisch relevanten Erkenntnissen diskutiert werden.
Die Analyse vom Genexpressionsdaten ist heutzutage eine weitverbreitete Anwendung, was sich auch in der zunehmenden Anzahl der damit veröffentlichten Artikel und Bücher widerspiegelt. Jedoch nähert sich die Mehrzahl dieser Veröffentlichungen von einer sehr technischen und theoretischen Seite. Das Ziel des experimentellen Biologen jedoch liegt vor allen in der Erfassung neuer biologischer Erkenntnisse. Diese sind jedoch oft nicht allzu vertraut mit den neuesten statistischen Methoden wohingegen die Entwickler dieser sich selten intensiv mit den aktuell viel diskutierten Themen der Biologie beschäftigt. Diese Arbeit versucht nun diese Lücke zu schließen, indem verschieden Methoden aus der Sicht des Biologen diskutiert werden. Dazu werden die den Methoden zugrunde liegenden Modellvorstellung, die daraus möglichen biologischen Resultate und die Für und Wider aus unterschiedlicher Sicht beleuchtet. Weiterhin wird in dieser Arbeit die Möglichkeit der unverfälschten Suche nach verborgenen Informationen in Genexpressionmustern erörtert.
Zuerst wird ein genereller Überblick der bekannten Biologie der Genexpression gegeben. Die Zusammensetzung des Transkriptoms und die verschiedenen Mechanismen zur Kontrolle der Genexpression werden vorgestellt. Daraufhin werden kurz die Vor- und Nachteile der Microarray Technologie erörtert. Schließlich werden aufgrund zwei verschiedener Modellvorstellungen einige weit verbreitete sowie mehr spezialisierte und weniger weit verbreitete Methoden diskutiert. Dabei liegt hier der Schwerpunkt weniger auf einer ausführlichen und detaillierten mathematischen Beschreibung sondern mehr auf auf der generellen Eignung sowie des möglichen biologischen Mehrwerts dieser Analysemethoden.
Das folgende Kapitel behandelt eine Anwendung aus dem Bereich der blinden Quellenseparation, die unabhängige Komponentenanalyse (ICA). Dazu wurde ein Datensatz bestehend aus zwei verschiedenen Zelltypen, Monozyten und daraus mittels M-CSF (Macrophage Colony-Stimulating Factor) differenzierten Makrophagen, ausgewertet. Mittels ICA wurden sogenannte 'Expressionsmodi' oder 'Sub-Modi' extrahiert und biologischen Annotationen zugewiesen werden. Durch Zusammenfügen der Sub-modi zu sogenannten 'Meta-modi' konnten verschieden bekannte Signal Pathways und regulatorische Mechanismen rekonstruiert werden. Außerdem konnten Hinweise auf ein bislang unbekanntes Potential zur Proliferation vom Macrophagen gefunden werden [Lutter et al., 2008].
Im dritten Kapitel wurde wiederum ICA auf zeitabhängige Microarray Daten angewandt. Die Ergebnisse wurden daraufhin mit denen einer weit verbreiteten Clustering Methode, dem Hierarchischem Clustering verglichen. Die Expressionsdaten wurden dabei abgeleitet von mit dem intrazellulären Bakterium F. tularensis infizierten Monocyten. Durch die mittels des Clustering identifizierten zeitabhängigen Gencluster konnte ein kinetisches Abbild der genetischen Immunantwort rekonstruiert werden. Parallel dazu wurden mittels ICA extrahierte temporäre Expressionsmodi mit den Clustering Ergebnissen verglichen. Es konnte gezeigt werden dass die durch ICA basierte Rekonstruktion der Immunantwort ein detaillierteres und höher zeitaufgelöstes Bild beschrieben werden konnte. [Lutter et al., 2009].
In einer dritten Analyse konnte ein hypothetischer regulatorischer Mechanismus mittels drei verschiedener Microarray Datensätzen bestätigt werden. Da etwa 50% aller bekannten MicroRNAs bei Säugetieren in Introns codierender Gene – sogenannter Hostgene – liegen und mit diesen transcribiert werden kann die Expression dieser intronischen microRNAs durch mRNA Transkriptionsprofile approximierrt werden. Die Beobachtung, dass eine einzelne microRNA bis zu meheren Duzend proteincodierender Transkripte regulieren kann, führte zu der Annahme, dass die transcriptionelle Verbindung auch einen funktionalen Charakter hat. Mittels eines herkömmlichen hierarchischem Clustering Ansatzes und einer Analyse basierend auf Genannotationen konnte diese Annahme grundlegend bestätigt werden.

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

Downloadstatistik

Weitere Literatur (mittels CORE)

Details

Vorschau

Bibliographische Daten exportieren

Zusammenfassung (Englisch)

Zusammenfassung (Englisch)

Übersetzung der Zusammenfassung (Deutsch)

Übersetzung der Zusammenfassung (Deutsch)

Downloadstatistik

Downloads

Weitere Literatur (mittels CORE)

Universitätsbibliothek