| Lizenz: Veröffentlichungsvertrag für Publikationen ohne Print on Demand (2MB) |
- URN zum Zitieren dieses Dokuments:
- urn:nbn:de:bvb:355-opus-7951
- DOI zum Zitieren dieses Dokuments:
- 10.5283/epub.10669
Dokumentenart: | Hochschulschrift der Universität Regensburg (Dissertation) |
---|---|
Open Access Art: | Primärpublikation |
Datum: | 9 April 2008 |
Begutachter (Erstgutachter): | Hans Robert (Prof. Dr. Dr.) Kalbitzer |
Tag der Prüfung: | 9 Februar 2007 |
Institutionen: | Biologie und Vorklinische Medizin > Institut für Biophysik und physikalische Biochemie > Prof. Dr. Dr. Hans Robert Kalbitzer |
Stichwörter / Keywords: | NOESY , Proteine , Strukturanalyse , NMR-Spektroskopie , Computerunterstütztes Verfahren , NMR , NOESY , mehrdeutig , NMR , NOESY , ambiguous |
Dewey-Dezimal-Klassifikation: | 500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie |
Status: | Veröffentlicht |
Begutachtet: | Ja, diese Version wurde begutachtet |
An der Universität Regensburg entstanden: | Ja |
Dokumenten-ID: | 10669 |
Zusammenfassung (Deutsch)
In der vorliegenden Arbeit wurde die Entwicklung des Softwarepakets AUREMOL fortgesetzt. Zentrales Ziel des Programms ist die automatische Strukturbestimmung unter Verwendung von möglichst wenigen experimentellen Daten. Kernziel der Arbeit war die Optimierung der automatischen Zuordnung von NOESY-NMR-Spektren durch Anwendung atomspezifischer Abstandsinformation, welche aus einer großen Datenbank ...
Zusammenfassung (Deutsch)
In der vorliegenden Arbeit wurde die Entwicklung des Softwarepakets AUREMOL fortgesetzt. Zentrales Ziel des Programms ist die automatische Strukturbestimmung unter Verwendung von möglichst wenigen experimentellen Daten. Kernziel der Arbeit war die Optimierung der automatischen Zuordnung von NOESY-NMR-Spektren durch Anwendung atomspezifischer Abstandsinformation, welche aus einer großen Datenbank nichtredundanter Proteinstrukturen gewonnen wurde.
Unter Anwendung der NMR-Spektroskopie zur Strukturbestimmung, wird der Großteil der Information über interatomare Abstände im Protein aus NOESY-NMR-Spektren gewonnen. Sie stellen somit eine Schlüsselrolle bei der Strukturbestimmung dar. Ihre Auswertung gehört allerdings zu den zeitaufwendigsten und zugleich fehleranfälligsten Arbeitsschritten. Die Auswertung bzw. die Zuordnung der Spektren kann im Softwarepaket AUREMOL über das Programm KNOWNOE automatisch durchgeführt werden. Das Kernziel der Arbeit war in erster Linie die Zuordnung mehrdeutiger NOESY-Signale, die das Hauptproblem bei der Auswertung darstellen, zu verbessern. Mehrdeutige NOESY-Signale sind Signale, die aufgrund bekannter chemischer Verschiebungen nicht eindeutig einem bestimmten Atompaar zugeordnet werden konnten. Das im Programm KNOWNOE angewandte statistische Verfahren ist in der Lage, im Falle von zwei- oder drei unterschiedlichen Atompaaren als Zuordnungsmöglichkeit, die wahrscheinlichste Möglichkeit zu berechnen. Hierbei greift das Programm auf eine Datenbank aus Wahrscheinlichkeitsverteilungen zurück, die auf der Kenntnis interatomarer Atomabstände innerhalb bekannten Proteinstrukturen beruhen.
Ziel war es, durch Ersatz der früheren Datenbank aus Verteilungen durch eine qualitativ hochwertigere und wesentlich umfangreichere Datenbank, die Anzahl so wie die Sicherheit der Zuordnungen zu erhöhen. Die neue Datenbank wurde im Gegensatz zur früheren Datenbank aus einem Satz strukturell nichtredundanter Strukturen erzeugt. Zusätzlich unterscheidet sie sich von der früheren Datenbank durch die größere Anzahl zu Verfügung stehender Verteilungen (über 200 000 anstatt 1577) für Abstände unterschiedlicher Atompaare, durch die höhere Datenauflösung (10 000 Datenpunkte anstatt 100) der einzelnen Verteilungen, durch die größere verwendete Strukturdatenbasis (1107 Strukturen anstatt 326) bei der Generierung und durch ein akkurateres mathematische Verfahren zur Berechnung einer bestimmten Verteilungskurve (Kurvenglättung über Summierung von Gaußkurven).
Anhand der simulierten 2D-NOESY-NMR Spektren der Proteine TmCSP und HPr konnte gezeigt werden, daß unter Anwendung der neuen Verteilungen die Gesamtanzahl der erstellten Zuordnungen so wie deren Sicherheit bzw. Richtigkeit stark erhöht werden konnte. Insgesamt konnten bei vergleichbaren Versuchsbedingungen die Anteile der jeweils vorhandenen zwei- und dreideutigen NOESY-Signale, denen jeweils ein bestimmtes Atompaar mit einer hohen Wahrscheinlichkeit (z.B. 80-99%) zugewiesen wurde, in etwa verdoppelt werden. So konnten, unter Einsatz der neuen Datenbank, anstatt wie vorher etwa 20-25%, nun 40-55% der jeweils vorhandenen zwei- und dreideutigen NOESY-Signale ein bestimmtes Atompaar mit beispielsweise einer Wahrscheinlichkeit von mindestens 98% zugewiesen werden. Zugleich konnte der Anteil falsch zugewiesener Zuordnungen in der Regel um die Hälfte verringert werden. Dies ist besonders wichtig, da falsche Zuordnungen zu falschen Abstandsberechnungen führen, und dadurch zu einer Verzerrung des Strukturmodells bezüglich der wirklichen Konformation der fraglichen Proteinstruktur während der Strukturrechnung führen können. Die erreichte Minimierung falscher Zuordnungen zeigte sich besonders bei kleinen eingestellten Suchradien (<1.0 nm) im Programm KNOWNOE deutlich, da hierbei im Allgemeinen besonders viele falsche Zuordnungen auftreten. Der Suchradius ist ein Parameter im Programm KNOWNOE, der iterativ reduziert wird. Er gibt den maximalen Abstand an, den ein bestimmtes Atompaar innerhalb der bereits vorhandenen Modellstruktur haben darf, um als Zuordnungsmöglichkeit für ein bestimmtes NOESY-Signal in Frage zu kommen. So konnte der Anteil falsch zugeordneter zwei- und dreideutiger NOESY-Signale, unter dem relativ kleinen eingestellten Suchradius von beispielsweise 0,6 nm und einer eingestellten Wahrscheinlichkeitsgrenze von P=0,98 beim simulierten 2D-NOESY-Spektrum vom Protein CSP von 28,4 % auf 16,3% und beim Protein HPr von 24,5% auf 10,5% reduziert werden. Weiter konnte gezeigt werden, dass sich das hier angewandte statistische Zuordnungsverfahren bei Benutzung der neuen Verteilungen gegenüber Abstandsfehlern wesentlich toleranter verhält. So führten künstlich erzeugte Abstandfehler von beispielweise 30 % bei Anwendung der früheren Verteilungen zu erheblichen Schwankungen so wie Steigerungen der Anteile falscher Zuordnungen. Bei Benutzung der neuen Verteilungen blieben die Fehlerquoten hingegen weitgehend konstant. Dieses Ergebnis ist besonderes wichtig, da man in experimentellen NOESY-NMR-Spektren generell mit größeren Fehlern bei der Abstandbestimmung aus NOESY-NMR-Signalen rechnen muß.
Es hat sich gezeigt, daß die ereichte Steigerung der Zuordnungsanzahl vor allem auf der großen Anzahl von erzeugten Verteilungen (über 200 000) beruht. Ein weiterer wichtiger Faktor ist die stark erhöhte Datenauflösung von 10000 Datenpunkten. Die Verbesserung der Zuordnungssicherheit konnte hingegen im wesentlichem auf die größere benutzte Strukturdatenbasis, der geringen sequentiellen Ähnlichkeit (<25%) der benutzten Proteine und dem angewandten Kurvenglättungsverfahren zurückgeführt werden.
Mit den erzeugten Datenbanken wurde in weiterem eine wertvolle Quelle struktureller Information bezüglich interatomarer Abstände zu Verfügung gestellt. Neben der Zuordnung von NOESY-NMR-Signalen, ist ihre Anwendung auch bei anderen wichtigen Arbeitschritten bei der Strukturbestimmung wie z.B. der Strukturrechnung oder der Strukturvalidierung denkbar.
Übersetzung der Zusammenfassung (Englisch)
In this work the development of the software package AUREMOL was continued. The central aim of the program is the automatic determination of the protein structure under using a minimal amount of experimental data. The main aim of the work was the optimization of the automatic assignment of NOESY NMR spectra under using atom specific distance information which were extracted from a big data bank ...
Übersetzung der Zusammenfassung (Englisch)
In this work the development of the software package AUREMOL was continued. The central aim of the program is the automatic determination of the protein structure under using a minimal amount of experimental data. The main aim of the work was the optimization of the automatic assignment of NOESY NMR spectra under using atom specific distance information which were extracted from a big data bank of non redundant protein structures.
Under employing NMR spectroscopy for structure determination, the main part of inter atomic distance information inside a protein is obtained from NOESY NMR spectra. Hence they play a key role for the structure determination. However their evaluation is belonging to the most time consuming and error prone working steps. The evaluation (= assignment) of the spectra can be automatically done inside the program AUREMOL over the program modul KNOWNOE . Here the central goal was to improve the assignment of ambiguous NOESY signals, which are the main problem during the evaluation. Ambiguous NOESY signals are signals, which could not be unambiguously assigned to one certain atom pair by known chemical shifts. The employed statistical method inside the program KNOWNOE is able, in the case of two or three different atom pairs as assignment possibilities, to calculate the most likely one. Thereby the program is accessing to a data bank of probability distributions, which are based on the knowledge of inter atomic distances of structurally known proteins.
The aim was, by replacement the previous data bank of distributions by a bigger data bank with a higher quality, to increase the amount of assignments with an additionally higher trustiness. The new data bank was, in spite of the old data bank, created from a set of non redundant structures. Additionally the new data bank differs from the previous one by a bigger amount of distributions (over 200 000 instead of 1577) for distances coming from different atom pairs, by a higher amount of data points (10 000 instead of 100) of a single distribution, by the bigger employed structure data base (1107 structures instead of 326) during its generation and by using a higher accurate mathematical method (smoothing of curves over summation of Gauss functions) for calculation a single probability distribution.
On the basis of simulated 2D-NOESY-NMR spectra of the proteins TmCSP and HPr could be shown that, under using the new distributions, the amount of assignments and their trustiness or could be essential increased. In general, under comparable test conditions, the part of existing NOESY signals with two or three assignment possibilities, which could be assigned to one single atom pair with a highly likelihood (80-99%), could be approximately doubled.
Under employing the new data bank, about 40-55% of the given NOESY signals with two or three assignment possibilities could be assigned with a likelihood of more than 98% instead of about 20-25 % before. At the same time the percentage part of wrong assignments could be normally halved. This is especially important because wrong assignments lead to incorrect distance calculations. This lead can further lead to a distortion of the structure model due to the real conformation of the investigated protein during the structure calculation. The received minimization f wrong assignments could be particularly seen at small adjusted search radii (<10,0 nm) inside the program KNOWNOE because thereby normally emerge very much wrong assignments. The search radius is a parameter inside the program KNOWNOE which is iterative reduced. It is the maximal allowed distance for a certain atom pair inside a already given structure model to be considered as an assignment possibility for a certain NOESY signal. In case of the relative small search radius of 0,6 nm and a adjusted probability limit of P=0,98 the percentage part of wrong assignment could be reduced from 28,4% to 16,3% for the simulated 2D NOESY NMR spectrum of the protein CSP and from 24,5% to 10,5% for the simulated 2D NOESY NMR spectrum of the protein HPr respectively. Further could be shown that the here used statistical method, under employing the new distributions, behaves essentially more tolerant against distance errors. It could be shown that artificial generated distance errors of 30% led under using the previous distributions to significant variations and increase of the relative parts of wrong assignments. Instead under employing the new distributions, the error ratio was widely constant. This result is very important, because working with experimental NOESY NMR spectra contains normally a higher risk of calculating non exactly distances from the given NOESY signals.
It could be shown that the received growth of assignments particularly based on the big number of generated distributions (over 200 000). Another important factor was their much higher resolution (10000 data points).The improvement of the assignment trustiness could be mainly declared by the bigger used structure data base, the more less sequential similarity (<25%) of the used proteins and the employed curve smoothing method.
The generated data banks further provided a precious source of information about inter atomic distances. Beside the assignment of NOESY NMR signals their application is also possible for another important structure determination working steps like structure calculation or structure validation.
Metadaten zuletzt geändert: 26 Nov 2020 12:38