Rekonstruktion von Proteinstrukturen aus unvollständigen NMR-Daten

Habeck, Michael (2004) Rekonstruktion von Proteinstrukturen aus unvollständigen NMR-Daten. Dissertation, Universität Regensburg.

Veröffentlichungsdatum dieses Volltextes: 07 Dez 2004 15:37
Hochschulschrift der Universität Regensburg
DOI zum Zitieren dieses Dokuments: 10.5283/epub.10238

Vorschau

Download ( PDF | 21MB)

Lizenz: Veröffentlichungsvertrag für Publikationen ohne Print on Demand

Zusammenfassung (Deutsch)

Gegenstand dieser Arbeit ist die Anwendung der Bayes'schen Wahrscheinlichkeitstheorie auf das Problem der makromolekularen Strukturbestimmung aus NMR-Daten. Ausgehend vom Prinzip der Inferentiellen Strukturbestimmung (ISD), habe ich wahrscheinlichkeitstheoretische Modelle für Messungen skalarer und dipolarer Kopplungen entwickelt. Es zeigt sich, daß die Regeln der Wahrscheinlichkeitstheorie zusätzliche Parameter wie die Fehler der
Datensätze sowie Parameter der Theorie (Karplus-Koeffizienten, Saupe-Matrizen, Kalibrationsfaktoren) direkt festlegen; somit werden die sonst üblichen Heuristiken zur Behandlung solcher Größen überflüssig. Für die in dieser Arbeit entwickelten Modelle ist eine analytische Elimierung der zusätzlichen Parameter aus der A posteriori-Verteilung möglich. In einem wahrscheinlichkeitstheoretischen Kontext verschiebt sich der Schwerpunkt der Strukturberechnung: Gesucht ist nicht bloß die "wahre" Struktur des Moleküls (die a posteriori wahrscheinlichste Konformation), sondern es gilt nun die A posteriori-Verteilung aller Hypothesenparameter zu simulieren, um neben Schätzwerten auch Abschätzungen für ihre Verlässlichkeit zu erhalten. Dazu werden mittels Monte-Carlo-Methoden Stichproben von der A posteriori-Verteilung gezogen. Es können nun sowohl für die Koordinaten, als auch die zusätzlichen Parameter neben ihren wahrscheinlichsten Werten Fehlerbalken angegeben werden; dies ist im Rahmen der optimierungsbasierten Strukturberechnung nicht möglich. Ich habe die entwickelten Modelle auf reale Datensätze angewendet und anhand ihrer verschiedene Aspekte der NMR-Strukturbestimmung diskutiert. Die geschätzten Strukturen sind von vergleichbarer Qualität wie durch Minimierung berechnete Strukturen. Je mehr Daten in die Analyse einfließen, umso genauer sind die Strukturen bestimmt und umso mehr ähneln sie der Kristallstruktur des Moleküls. Die gemeinsame Analyse mehrerer Datensätze ist möglich, weil jeder Datensatz mit seinem eigenen Fehler in die Analyse eingeht; dieser wird während der Strukturbestimmung geschätzt. Bei Analyse eines einzelnen Datensatzes ergeben sich dieselben Resultate wie bei der Kreuzvalidierung. Die Schätzung eines Fehlers für einen Datensatz läßt sich direkt auf mehrere Datensätze verallgemeinern, ohne den Rechenaufwand nennenswert zu vergrößern. Damit werden die Gewichte der Datensätze während der Strukturberechnung relativ zu den anderen Datensätzen und den bekannten physikalischen Eigenschaften des Moleküls angepaßt. Die wahrscheinlichkeitstheoretische Bestimmung der Karplus-Koeffizienten und der Elemente der Saupe-Matrix läßt sich mit den Heuristiken zur Behandlung dieser Größen vergleichen: diese ergeben sich als Spezialfälle der Bayes'schen Analyse und können aus ihr abgeleitet werden. Die Bayes'sche Behandlung hat den Vorteil, daß eine konsistente Verwendung verschiedener Informationsquellen durch die Grundregeln der Wahrscheinlichkeitsrechnung garantiert ist.

Übersetzung der Zusammenfassung (Englisch)

My thesis is concerned with the application of Bayesian probability theory to the problem of macromolecular structure determination from NMR data. Starting from the Inferential Structure Determination (ISD) principle, I have developed probabilistic models for scalar and dipolar coupling data. It turns out that the rules of probability theory are sufficient to determine additional parameters such as the errors of the data sets as well as unknown parameters of the theory (Karplus coefficients, Saupe matrices, calibration factors). Therefore, the common heuristics to deal with such quantities become superfluous. In case of the models that have been developed in my thesis it is moreover possible to eliminate additional parameters analytically. In a probabilistic context, the focus of structure calculation changes: One does not only search for the "true" structure of the molecule (the a posteriori most probable conformation) but one simulates the posterior probability density of all hypothesis parameters in order to obtain both estimates and error bars. To this end, I employ Markov chain Monte Carlo methods to generate posterior samples. It is now possible to calculate the most probable values and error bars for both the coordinates and the additional parameters; this is not possible within an optimisation-based framework. I apply the probabilistic models to real data sets and discuss several aspects of structure determination by NMR. The sampled structures are of the same quality as those calculated by minimisation. The quality of the structures and their similarity to the crystal structure increases with increasing number of data points. It now becomes possible to analyse several data sets at the same time because each data set is weighted according to its error which is estimated during structure calculation. In case of a single data set, one obtains the same results as when applying cross-validation. The estimation of a single error parameter is straighforwardly generalised to multiple data sets without significant increase in computational costs. Thus, the weights of the data sets are adapted during structure calculation relative to the other data sets and the known physical properties of the molecule. The probabilistic determination of the Karplus coefficients and of the Saupe matrix can be compared to the heuristics that are usually employed in order to deal with these quantities: They are special cases of the Bayesian analysis and can be derived from it. The Bayesian approach has the advantage that the joint analysis of heterogneous bits of information is guaranteed to be consistent since it relies on the rules of probability theory.

Beteiligte Einrichtungen

Biologie und Vorklinische Medizin > Institut für Biophysik und physikalische Biochemie > Prof. Dr. Dr. Hans Robert Kalbitzer
Browse Publikationen

Details

Dokumentenart	Hochschulschrift der Universität Regensburg (Dissertation)
Open Access Art:	Primärpublikation
Datum	6 Dezember 2004
Begutachter (Erstgutachter)	Hans-Robert (Prof. Dr. Dr.) Kalbitzer
Tag der Prüfung	16 September 2004
Institutionen	Biologie und Vorklinische Medizin > Institut für Biophysik und physikalische Biochemie > Prof. Dr. Dr. Hans Robert Kalbitzer
Stichwörter / Keywords	Strukturaufklärung , Bayes-Inferenz , Markov-Ketten-Monte-Carlo-Verfahren , NMR-Spektroskopie , , protein structure determination , Bayesian inference , Markov chain Monte Carlo , NMR spectroscopy
Dewey-Dezimal-Klassifikation	500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie
Status	Veröffentlicht
Begutachtet	Ja, diese Version wurde begutachtet
An der Universität Regensburg entstanden	Ja
URN der UB Regensburg	urn:nbn:de:bvb:355-opus-4363
Dokumenten-ID	10238

Bibliographische Daten exportieren

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

Downloadstatistik

Weitere Literatur (mittels CORE)

nach oben