| Download ( PDF | 21MB) | Lizenz: Veröffentlichungsvertrag für Publikationen ohne Print on Demand |
Rekonstruktion von Proteinstrukturen aus unvollständigen NMR-Daten
Habeck, Michael (2004) Rekonstruktion von Proteinstrukturen aus unvollständigen NMR-Daten. Dissertation, Universität Regensburg.Veröffentlichungsdatum dieses Volltextes: 07 Dez 2004 15:37
Hochschulschrift der Universität Regensburg
DOI zum Zitieren dieses Dokuments: 10.5283/epub.10238
Zusammenfassung (Deutsch)
Gegenstand dieser Arbeit ist die Anwendung der Bayes'schen Wahrscheinlichkeitstheorie auf das Problem der makromolekularen Strukturbestimmung aus NMR-Daten. Ausgehend vom Prinzip der Inferentiellen Strukturbestimmung (ISD), habe ich wahrscheinlichkeitstheoretische Modelle für Messungen skalarer und dipolarer Kopplungen entwickelt. Es zeigt sich, daß die Regeln der Wahrscheinlichkeitstheorie ...
Gegenstand dieser Arbeit ist die Anwendung der Bayes'schen Wahrscheinlichkeitstheorie auf das Problem der makromolekularen Strukturbestimmung aus NMR-Daten. Ausgehend vom Prinzip der Inferentiellen Strukturbestimmung (ISD), habe ich wahrscheinlichkeitstheoretische Modelle für Messungen skalarer und dipolarer Kopplungen entwickelt. Es zeigt sich, daß die Regeln der Wahrscheinlichkeitstheorie zusätzliche Parameter wie die Fehler der
Datensätze sowie Parameter der Theorie (Karplus-Koeffizienten, Saupe-Matrizen, Kalibrationsfaktoren) direkt festlegen; somit werden die sonst üblichen Heuristiken zur Behandlung solcher Größen überflüssig. Für die in dieser Arbeit entwickelten Modelle ist eine analytische Elimierung der zusätzlichen Parameter aus der A posteriori-Verteilung möglich. In einem wahrscheinlichkeitstheoretischen Kontext verschiebt sich der Schwerpunkt der Strukturberechnung: Gesucht ist nicht bloß die "wahre" Struktur des Moleküls (die a posteriori wahrscheinlichste Konformation), sondern es gilt nun die A posteriori-Verteilung aller Hypothesenparameter zu simulieren, um neben Schätzwerten auch Abschätzungen für ihre Verlässlichkeit zu erhalten. Dazu werden mittels Monte-Carlo-Methoden Stichproben von der A posteriori-Verteilung gezogen. Es können nun sowohl für die Koordinaten, als auch die zusätzlichen Parameter neben ihren wahrscheinlichsten Werten Fehlerbalken angegeben werden; dies ist im Rahmen der optimierungsbasierten Strukturberechnung nicht möglich. Ich habe die entwickelten Modelle auf reale Datensätze angewendet und anhand ihrer verschiedene Aspekte der NMR-Strukturbestimmung diskutiert. Die geschätzten Strukturen sind von vergleichbarer Qualität wie durch Minimierung berechnete Strukturen. Je mehr Daten in die Analyse einfließen, umso genauer sind die Strukturen bestimmt und umso mehr ähneln sie der Kristallstruktur des Moleküls. Die gemeinsame Analyse mehrerer Datensätze ist möglich, weil jeder Datensatz mit seinem eigenen Fehler in die Analyse eingeht; dieser wird während der Strukturbestimmung geschätzt. Bei Analyse eines einzelnen Datensatzes ergeben sich dieselben Resultate wie bei der Kreuzvalidierung. Die Schätzung eines Fehlers für einen Datensatz läßt sich direkt auf mehrere Datensätze verallgemeinern, ohne den Rechenaufwand nennenswert zu vergrößern. Damit werden die Gewichte der Datensätze während der Strukturberechnung relativ zu den anderen Datensätzen und den bekannten physikalischen Eigenschaften des Moleküls angepaßt. Die wahrscheinlichkeitstheoretische Bestimmung der Karplus-Koeffizienten und der Elemente der Saupe-Matrix läßt sich mit den Heuristiken zur Behandlung dieser Größen vergleichen: diese ergeben sich als Spezialfälle der Bayes'schen Analyse und können aus ihr abgeleitet werden. Die Bayes'sche Behandlung hat den Vorteil, daß eine konsistente Verwendung verschiedener Informationsquellen durch die Grundregeln der Wahrscheinlichkeitsrechnung garantiert ist.
Übersetzung der Zusammenfassung (Englisch)
My thesis is concerned with the application of Bayesian probability theory to the problem of macromolecular structure determination from NMR data. Starting from the Inferential Structure Determination (ISD) principle, I have developed probabilistic models for scalar and dipolar coupling data. It turns out that the rules of probability theory are sufficient to determine additional parameters such ...
My thesis is concerned with the application of Bayesian probability theory to the problem of macromolecular structure determination from NMR data. Starting from the Inferential Structure Determination (ISD) principle, I have developed probabilistic models for scalar and dipolar coupling data. It turns out that the rules of probability theory are sufficient to determine additional parameters such as the errors of the data sets as well as unknown parameters of the theory (Karplus coefficients, Saupe matrices, calibration factors). Therefore, the common heuristics to deal with such quantities become superfluous. In case of the models that have been developed in my thesis it is moreover possible to eliminate additional parameters analytically. In a probabilistic context, the focus of structure calculation changes: One does not only search for the "true" structure of the molecule (the a posteriori most probable conformation) but one simulates the posterior probability density of all hypothesis parameters in order to obtain both estimates and error bars. To this end, I employ Markov chain Monte Carlo methods to generate posterior samples. It is now possible to calculate the most probable values and error bars for both the coordinates and the additional parameters; this is not possible within an optimisation-based framework. I apply the probabilistic models to real data sets and discuss several aspects of structure determination by NMR. The sampled structures are of the same quality as those calculated by minimisation. The quality of the structures and their similarity to the crystal structure increases with increasing number of data points. It now becomes possible to analyse several data sets at the same time because each data set is weighted according to its error which is estimated during structure calculation. In case of a single data set, one obtains the same results as when applying cross-validation. The estimation of a single error parameter is straighforwardly generalised to multiple data sets without significant increase in computational costs. Thus, the weights of the data sets are adapted during structure calculation relative to the other data sets and the known physical properties of the molecule. The probabilistic determination of the Karplus coefficients and of the Saupe matrix can be compared to the heuristics that are usually employed in order to deal with these quantities: They are special cases of the Bayesian analysis and can be derived from it. The Bayesian approach has the advantage that the joint analysis of heterogneous bits of information is guaranteed to be consistent since it relies on the rules of probability theory.
Beteiligte Einrichtungen
Details
| Dokumentenart | Hochschulschrift der Universität Regensburg (Dissertation) |
| Datum | 6 Dezember 2004 |
| Begutachter (Erstgutachter) | Hans-Robert (Prof. Dr. Dr.) Kalbitzer |
| Tag der Prüfung | 16 September 2004 |
| Institutionen | Biologie und Vorklinische Medizin > Institut für Biophysik und physikalische Biochemie > Prof. Dr. Dr. Hans Robert Kalbitzer |
| Stichwörter / Keywords | Strukturaufklärung , Bayes-Inferenz , Markov-Ketten-Monte-Carlo-Verfahren , NMR-Spektroskopie , , protein structure determination , Bayesian inference , Markov chain Monte Carlo , NMR spectroscopy |
| Dewey-Dezimal-Klassifikation | 500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie |
| Status | Veröffentlicht |
| Begutachtet | Ja, diese Version wurde begutachtet |
| An der Universität Regensburg entstanden | Ja |
| URN der UB Regensburg | urn:nbn:de:bvb:355-opus-4363 |
| Dokumenten-ID | 10238 |
Downloadstatistik
Downloadstatistik