Ziel der vorliegenden Arbeit war, die automatische Auswertung multidimensionaler NMR-Spektren von Proteinen zur Strukturbestimmung durch das Softwareprojekt AUREMOL zu verbessern.
Im Rahmen dieser Arbeit wurden Basisfunktionen durch effizientere, zentrale und rekursive Schnittstellen ersetzt. Dies ermöglicht eine einfache Einbindung der Funktionalitäten in zukünftige Module. Alle Module, welche ...
Zusammenfassung (Deutsch)
Ziel der vorliegenden Arbeit war, die automatische Auswertung multidimensionaler NMR-Spektren von Proteinen zur Strukturbestimmung durch das Softwareprojekt AUREMOL zu verbessern.
Im Rahmen dieser Arbeit wurden Basisfunktionen durch effizientere, zentrale und rekursive Schnittstellen ersetzt. Dies ermöglicht eine einfache Einbindung der Funktionalitäten in zukünftige Module. Alle Module, welche in dieser Arbeit erstellt bzw. erweitert wurden, sind auch durch ihren rekursiven Ansatz in der Lage, Spektren beliebiger Dimension verarbeiten zu können.
Der Schwerpunkt der Arbeit lag in der Automatisierung und Optimierung der Signalerkennung und der Extraktion wichtiger Signaleigenschaften, da sie die Qualität aller Folgeroutinen bei der automatischen NMR-Strukturbestimmung wesentlich beeinflussen.
Das Modul Integration wurde in mehreren Punkten verbessert. So wurde eine automatische Anpassung der Integrationsschritte und der Größe des Integrationsbereichs für den Wachstumsalgorithmus während des Integrationsprozesses realisiert. Eine weitere wichtige Erweiterung bietet nun auch die Möglichkeit, Signale zu integrieren, deren Position sich nicht an einem Extremum der Signalform befindet. Durch weitere Optimierungen und eine Parallelisierung konnte die Performance des Algorithmus signifikant erhöht werden. Zudem ist es dem Modul nun durch den rekursiven Ansatz möglich, n-dimensionale Spektren zu integrieren. Um dem Benutzer die Möglichkeit zu bieten, die Ergebnisse der Integration noch einmal stichprobenartig verifizieren zu können, wurde eine Visualisierung der Volumen für ein- und zweidimensionale Spektren in AUREMOL umgesetzt. Da alle anteiligen Intensitäten am Volumen zu den jeweiligen Signalen in eine zusätzliche Struktur gespeichert werden, ist es möglich, schnelle Abfragen von Volumeninformationen anderer Module durchzuführen.
Durch die Festlegung der Positionen am Schwerpunkt der Volumenform eines Signals, konnte an synthetischen Spektren gezeigt werden, dass die Schwerpunktposition näher an der theoretisch bestimmten Position liegt, als die Position, welche durch das Extremum der Signalform definiert wird.
Im letzten Abschnitt dieser Arbeit wurde der Ansatz zur Bestimmung der bayesschen Wahrscheinlichkeit, dass ein NMR-Signal aus der Peakliste ein Nutzsignal ist, verbessert. Die Güte der Diskriminierung der NMR-Signale in Nutzsignale und Störsignale konnte vor allem durch die Einführung neuer Signal-Eigenschaften verbessert werden. Ebenso konnte gezeigt werden, dass aus einem synthetischen Spektrum theoretische Verteilungen durch Simulated Annealing generiert werden können und dadurch eine ausreichende Diskriminierung gewährleisten. Dies ist vor allem dann nötig, falls zu wenig Nutzsignale in der Klasse Signal vorzufinden sind, denn dies erlaubt keine Erstellung von dem Modul benötigten geglätteten Verteilungen der verwendeten Eigenschaften. Die geglätteten Verteilungen wurden ebenfalls durch einen dynamischen Glättungsfilter erweitert, welcher erlaubt, Wahrscheinlichkeitsdichteverteilungen mit einer definierbaren Anzahl von Extrema zu generieren. Generell ist der erweiterte Ansatz der Berechnung der bayesschen Wahrscheinlichkeit für Signale auf nicht zweidimensionale Spektren höherer Dimension anwendbar, falls keine Symmetrieeigenschaften verwendet werden.
Übersetzung der Zusammenfassung (Englisch)
The aim of this work was to improve the automatic evaluation of multidimensional NMR spectra for the structure determination of proteins by the software project AUREMOL.
Within this work basic functions were replaced by more efficient, central and recursive interfaces. This allows a simple integration of the functionalities into future modules. All modules, which were created or extended in this ...
Übersetzung der Zusammenfassung (Englisch)
The aim of this work was to improve the automatic evaluation of multidimensional NMR spectra for the structure determination of proteins by the software project AUREMOL.
Within this work basic functions were replaced by more efficient, central and recursive interfaces. This allows a simple integration of the functionalities into future modules. All modules, which were created or extended in this work, are also capable of processing spectra of any dimension through their recursive approach.
The focus of the work was the automation and optimization of the signal recognition and the extraction of important signal properties, since they significantly influence the quality of all follow-up routines in the automatic NMR structure determination.
The integration module improved in several points. Thus an automatic adjustment of the integration steps and the size of the integration area for the growth algorithm was realized during the integration process. A further important extension also offers the possibility to integrate signals whose position is not on an extremum of the signalform. Further optimization and parallelization significantly increased the performance of the algorithm. In addition, the recursive approach allows the module to integrate n-dimensional spectra. In order to provide the user to verify the results of the integration, a visualization of the volumes for one- and two-dimensional spectra was implemented in AUREMOL. Since all intensities of the volume to the respective signals are stored in an additional structure, it is possible to carry out fast queries of volume information of other modules.
By defining the positions at the center of gravity of the volume shape of a signal, synthetic spectra showed that the center of gravity position is closer to the theoretically determined position than the position defined by the extremum of the signalform.
In the last section of this thesis the approach for determining the Bayesian probability that an NMR signal from the peaklist is a real signal of the protein has been improved. The quality of the discrimination of the NMR-signals in real peaks and noise peaks (artefact, water and noise) could be improved by the introduction of new important signal characteristics. It has also been shown that theoretical property distributions can be extracted from a synthetic spectrum by simulated annealing and thus ensure adequate discrimination. This is necessary above all when there are too few useful signals in the signal class, since this does not allow to generate the smoothed distributions of the properties by the module. The smoothed distributions were also expanded by a dynamic smoothing-filter, which allows to generate probability density distributions with a definable number of extrema. In general, the extended approach of calculating Bayesian probability for signals to non-two-dimensional spectra of higher dimension is applicable if no symmetry properties are used.