| Lizenz: Veröffentlichungsvertrag für Publikationen mit Print on Demand (9MB) |
- URN zum Zitieren dieses Dokuments:
- urn:nbn:de:bvb:355-epub-334600
- DOI zum Zitieren dieses Dokuments:
- 10.5283/epub.33460
Dokumentenart: | Hochschulschrift der Universität Regensburg (Dissertation) |
---|---|
Open Access Art: | Primärpublikation |
Datum: | 2 Februar 2017 |
Begutachter (Erstgutachter): | Prof. Dr. Iris Heid und Prof. Dr. Carsten Böger |
Tag der Prüfung: | 23 Februar 2016 |
Institutionen: | Medizin > Institut für Epidemiologie und Präventivmedizin |
Stichwörter / Keywords: | Genotype Imputation, Haplotype, Kidney Function, Age Related Macula Degeneration, Genome Wide Association Meta-analysis |
Dewey-Dezimal-Klassifikation: | 600 Technik, Medizin, angewandte Wissenschaften > 610 Medizin |
Status: | Veröffentlicht |
Begutachtet: | Ja, diese Version wurde begutachtet |
An der Universität Regensburg entstanden: | Ja |
Dokumenten-ID: | 33460 |
Zusammenfassung (Englisch)
Genotype imputation infers variants, which are not directly assayed in study subjects, by matching inferred study haplotypes with those in external reference panels. Inferred variants are subsequently used to identify genetic loci associated with complex disease. Technological advances in genotyping and sequencing technologies have created a novel generation of high density reference panels, ...
Zusammenfassung (Englisch)
Genotype imputation infers variants, which are not directly assayed in study subjects, by matching inferred study haplotypes with those in external reference panels. Inferred variants are subsequently used to identify genetic loci associated with complex disease. Technological advances in genotyping and sequencing technologies have created a novel generation of high density reference panels, which enable to shed additional light on the genetic architecture of complex traits. But the gain in using these novel high density reference panels for genotype imputation and association analysis is still missing. Thus this work focused on identifying the gain in analyzing variants imputed with high density reference panels compared to analyzing variants imputed with low density reference panels in large scale genome wide data.
I showed in my work how high density reference panels increase our knowledge of the genetic maps on kidney function and AMD. I further developed a tool to assist study analysts for imputing genome wide data for meta-analyses in consortia and I optimized the imputation of untyped variants in individual participant data of large scale.
First, I compared a meta-analysis of variants imputed with HapMap reference panels with variants imputed with 1000 Genomes reference panels in data from the CKDGen consortium. The comparison of imputation qualities evidenced the overall superiority of the imputation with the 1000 Genomes reference panels and illustrates the increased possibility to detect rare variants associated with complex disease. The meta-analysis on kidney filtration rate of the variants imputed with the 1000 Genomes reference panel confirm the majority of previously reported susceptibly loci for kidney function and furthermore allow the identification of 10 additional loci.
Second, I quantified the gain in mega-imputing and mega-analyzing individual participant data compared to meta-imputing the same data per study and meta-analyzing study specific effect estimates. For this analysis I used one of the world’s largest individual participant data set from the IAMDGC. I illustrated that the imputation quality of untyped variants imputed jointly across all studies is superior to the imputation quality of variants imputed separated by study and showed that there is a gain of mega-analyzing imputed variants compared to meta-analyzing the same imputed variants. This gain is even bigger, when mega-analyzing variants imputed jointly is compared to mimicking a realistic scenario in consortia of meta-analyzing variants imputed per study.
Third, I facilitate the computational demanding task of genotype imputation with the software PhaseLift, which harmonizes phased study haplotype with any reference panel on any build. This enables study analysts save time in re-imputing study data. Study analysts perform the computational intensive phase estimation once and re-impute the study haplotypes with any novel reference panel on any novel genomic build, without repeating the tedious phase estimation. In optimizing the mega-imputation of large scale genome wide variants across several studies and identifying parameter and constraints for genotype imputation, I assist study analysts to overcome the computational demanding task of imputing large genome wide data.
In summary, genome wide association analyses on variants imputed with high density reference panels further chart the genetic map of complex traits, which will ultimately lead to an increased understanding of the biological mechanisms in the health and disease and to improve diagnosis, treatments and prevention of complex disease for patients.
Übersetzung der Zusammenfassung (Deutsch)
Genotyp-Imputation schätzt genetische Varianten in Teilnehmern einer Studie, die nicht direkt gemessen wurden, indem sie übereinstimmende Abschnitte der Haplotypen in den Studienteilnehmern mit denen aus externen Referenz-Haplotypen zur Deckung bringt. Diese geschätzten Varianten können anschließend genutzt werden um genetischer Regionen zu identifizieren, die hoch assoziiert sind mit komplexen ...
Übersetzung der Zusammenfassung (Deutsch)
Genotyp-Imputation schätzt genetische Varianten in Teilnehmern einer Studie, die nicht direkt gemessen wurden, indem sie übereinstimmende Abschnitte der Haplotypen in den Studienteilnehmern mit denen aus externen Referenz-Haplotypen zur Deckung bringt. Diese geschätzten Varianten können anschließend genutzt werden um genetischer Regionen zu identifizieren, die hoch assoziiert sind mit komplexen Erkrankungen. Technologische Fortschritte in der Genotypisierungs- und Sequenzierungstechnik haben eine neue Generation von Referenzdaten mit hoher Dichte hervorgebracht, die versprechen die genetische Architektur komplexer Erkrankungen näher zu beleuchten. Der Gewinn, den diese neuen Referenzdaten mit sich bringen wurde jedoch noch nicht eingehend untersucht. Deswegen ist es das Ziel meiner Arbeit aufzuzeigen, welchen Gewinn die Verwendung dieser neuen Generation von Referenzdaten mit sich bringt.
Ich zeige in meiner Arbeit, wie die Verwendung dieser neuen Generation von Referenzdaten unsere Kenntnisse über die genetische Architektur, insbesondere der Nierenfunktion und der AMD erweitert. Des Weiteren entwickelte ich ein Programm, das den Prozess der Genotyp-Imputation beschleunigt und ich optimierte die Genotyp-Imputation sehr großer genomweiter Datensätze.
Anhand von Daten aus dem CKDGen Konsortium verglich ich zunächst die Meta-Analyse von Varianten, die mit HapMap Referenzdaten imputiert wurden mit der Meta-Analyse von Varianten, die mit 1000 Genomes Referenzdaten imputiert wurden. Der Vergleich der Imputationsgüte unterstreicht die Überlegenheit der Imputation mit 1000 Genomes Referenzdaten gegenüber der Imputation mit HapMap Referenzdaten und zeigt auf, dass es mit Hilfe der 1000 Genomes Referenzdaten mit höherer Wahrscheinlichkeit genomweite Assoziationen mit seltenen genetischen Varianten geben kann. Die Meta-Analyse bezüglich Nierenfiltration konnte die Mehrzahl der bekannten genetischen Regionen zur Nierenfiltration verifizieren und erlaubte darüber hinaus auch die Identifizierung 10 zusätzlicher Regionen.
Des Weiteren quantifizierte ich den erzielten Gewinn wenn ein großer genomweiter Datensatz zusammen imputiert und analysiert wird im Gegensatz dazu, dass die Imputation und die Assoziationsanalyse nach Studien getrennt berechnet wird und die Effektschätzer anschließend in einer Meta-Analyse vereint wurden. Für diese Analyse stand mir einer der weltweit größten Datensätze aus Einzelpersonen aus dem IAMDGC zur Verfügung. Zunächst zeigte ich, dass die Imputation aller Studienteilnehmer zusammen höhere Imputationsqualität generiert, verglichen mit der Imputation getrennt nach Studie. Ich zeigte, dass man bessere Assoziationsergebnisse erhält, wenn man gemeinsam imputierte Varianten auch gemeinsam auswertet, verglichen damit, dass man die gemeinsam imputierten Varianten getrennt nach Studie auswertet und danach meta-analysiert. Noch bessere Ergebnisse erzielt man, wenn man zunächst alle undetektierten Varianten zusammen imputiert und auch zusammen auswertet im Gegensatz dazu, dass man den die undetektierten Varianten getrennt nach Studien imputiert und auswertet, um die studienspezifischen Effektschätzer danach zu meta-analysieren.
Mit der Software PhaseLift beschleunigte ich die Genotyp-Imputation. PhaseLift harmonisiert die geschätzten Haplotypen der Studienteilnehmer mit Referenzdaten, die auf einer beliebigen Annotation sein können. Dadurch entfällt die rechenintensive, wiederholte Haplotypschätzung, wenn Studiendaten mit mehreren Referenzdaten imputiert werden sollen. Durch die Optimierung der Imputation von hochdimensionalen genomweiten Datensätzen auf großen Server-Clustern und durch die Identifizierung der benötigten Rechenressourcen dafür, ermöglichte ich es Studienanalysten die recheninstensive Genotyp-Imputation auch auf hochdimensionale Daten anzuwenden.
Zusammenfassend haben meine Untersuchungen ergeben, dass die Genotyp-Imputation mit der neuen Generation von Referenzdaten nicht nur unsere Kenntnisse über die genetische Architektur komplexer Erkrankungen erhöht, sondern auch, dass durch verbesserte Analysemethoden und Software die genetische Epidemiologie zu einem besseren Verständnis von Krankheiten und krankheits-relevanten Merkmalen und letztendlich auch zu einem besseren Verständnis der Ursachen und Entstehung von komplexen Erkrankungen beiträgt.
Metadaten zuletzt geändert: 25 Nov 2020 22:55