Application of Singular Spectrum Analysis (SSA), Independent Component Analysis (ICA) and Empirical Mode Decomposition (EMD) for automated solvent suppression and automated baseline and phase correction from multi-dimensional NMR spectra

URN zum Zitieren dieses Dokuments:: urn:nbn:de:bvb:355-epub-231975
DOI zum Zitieren dieses Dokuments:: 10.5283/epub.23197

De Sanctis, Silvia

Vorschau

Lizenz: Veröffentlichungsvertrag für Publikationen ohne Print on Demand
PDF
(8MB)

Veröffentlichungsdatum dieses Volltextes: 18 Jan 2013 07:56

Details

Dokumentenart:	Hochschulschrift der Universität Regensburg (Dissertation)
Open Access Art:	Primärpublikation
Datum:	18 Januar 2013
Begutachter (Erstgutachter):	Prof. Dr. Dr. Hans Robert Kalbitzer
Tag der Prüfung:	22 Dezember 2011
Institutionen:	Biologie und Vorklinische Medizin > Institut für Biophysik und physikalische Biochemie > Prof. Dr. Dr. Hans Robert Kalbitzer
Stichwörter / Keywords:	Multidimensional NMR spectroscopy, solvent suppression, post-processing methods, singular spectrum analysis, baseline correction, AUREMOL_SSA/ALS, independent component analysis, ICA-tailored inputs, empirical mode decomposition, phase correction, genetic algorithms
Dewey-Dezimal-Klassifikation:	500 Naturwissenschaften und Mathematik > 500 Naturwissenschaften 500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie
Status:	Veröffentlicht
Begutachtet:	Ja, diese Version wurde begutachtet
An der Universität Regensburg entstanden:	Ja
Dokumenten-ID:	23197

Vorschau

Bibliographische Daten exportieren

Zusammenfassung (Englisch)

Zusammenfassung (Englisch)

A common problem on protein structure determination by NMR spectroscopy is due to the solvent artifact. Typically, a deuterated solvent is used instead of normal water. However, several experimental methods have been developed to suppress the solvent signal in the case that one has to use a protonated solvent or if the signals of the remaining protons even in a highly deuterated sample are still too strong. For a protein dissolved in 90% H2O / 10% D2O, the concentration of solvent protons is about five orders of magnitude greater than the concentration of the protons of interest in the solute. Therefore, the evaluation of multi-dimensional NMR spectra may be incomplete since certain resonances of interest (e.g. Hα proton resonances) are hidden by the solvent signal and since signal parts of the solvent may be misinterpreted as cross peaks originating from the protein. The experimental solvent suppression procedures typically are not able to recover these significant protein signals. Many post-processing methods have been designed in order to overcome this problem.
In this work, several algorithms for the suppression of the water signal have been developed and compared. In particular, it has been shown that the Singular Spectrum Analysis (SSA) can be applied advantageously to remove the solvent artifact from NMR spectra of any dimensionality both digitally and analogically acquired. In particular, the investigated time domain signals (FIDs) are decomposed into water and protein related components by means of an initial embedding of the data in the space of time-delayed coordinates. Eigenvalue decomposition is applied on these data and the component with the highest variance (typically represented by the dominant solvent signal) is neglected before reverting the embedding. Pre-processing (group delay management and signal normalization) and post-processing (inverse normalization, Fourier transformation and phase and baseline corrections) of the NMR data is mandatory in order to obtain a better performance of the suppression. The optimal embedding dimension has been empirically determined in accordance to a specific qualitative and quantitative analysis of the extracted components applied on a back-calculated two-dimensional spectrum of HPr protein from Staphylococcus aureus.
Moreover, the investigation of experimental data (three-dimensional 1H13C HCCH-TOCSY spectrum of Trx protein from Plasmodium falciparum and two-dimensional NOESY and TOCSY spectra of HPr protein from Staphylococcus aureus) has revealed the ability of the algorithm to recover resonances hidden underneath the water signal.
Pathological diseases and the effects of drugs and lifestyle can be detected from NMR spectroscopy applied on samples containing biofluids (e.g. urine, blood, saliva). The detection of signals of interest in such spectra can be hampered by the solvent as well. The SSA has also been successfully applied to one-dimensional urine, blood and cell spectra.
The algorithm for automated solvent suppression has been introduced in the AUREMOL software package (AUREMOL_SSA). It is optionally followed by an automated baseline correction in the frequency domain (AUREMOL_ALS) that can be also used out the former algorithm. The automated recognition of baseline points is differently performed in dependence on the dimensionality of the data.
In order to investigate the limitations of the SSA, it has been applied to spectra whose dominant signal is not the solvent (as in case of watergate solvent suppression and in case of back-calculated data not including any experimental water signal) determining the optimal solvent-to-solute ratio.
The Independent Component Analysis (ICA) represents a valid alternative for water suppression when the solvent signal is not the dominant one in the spectra (when it is smaller than the half of the strongest solute resonance). In particular, two components are obtained: the solvent and the solute. The ICA needs as input at least as many different spectra (mixtures) as the number of components (source signals), thus the definition of a suitable protocol for generating a dataset of one-dimensional ICA-tailored inputs is straightforward.
The ICA has revealed to overcome the SSA limitations and to be able to recover resonances of interest that cannot be detected applying the SSA. The ICA avoids all the pre- and post-processing steps, since it is directly applied in the frequency domain. On the other hand, the selection of the component to be removed is automatically detected in the SSA case (having the highest variance). In the ICA, a visual inspection of the extracted components is still required considering that the output is permutable and scale and sign ambiguities may occur.
The Empirical Mode Decomposition (EMD) has revealed to be more suitable for automated phase correction than for solvent suppression purposes. It decomposes the FID into several intrinsic mode functions (IMFs) whose frequency of oscillation decreases from the first to the last ones (that identifies the solvent signal). The automatically identified non-baseline regions in the Fourier transform of the sum of the first IMFs are separately evaluated and genetic algorithms are applied in order to determine the zero- and first-order terms suitable for an optimal phase correction.
The SSA and the ALS algorithms have been applied before assigning the two-dimensional NOESY spectrum (with the program KNOWNOE) of the PSCD4-domain of the pleuralin protein in order to increase the number of already existing distance restraints. A new routine to derive 3JHNHα couplings from torsion angles (Karplus relation) and vice versa, has been introduced in the AUREMOL software. Using the newly developed tools a refined three-dimensional structure of the PSCD4-domain could be obtained.

Übersetzung der Zusammenfassung (Deutsch)

Ein häufiges Problem der Protein-Struktur-Bestimmung durch NMR Spektroskopie stellt die Anwesenheit von Lösemittel-Artefakten dar. Typischerweise wird bereits ein deuteriertes Lösungsmittel statt normalen Wassers verwendet. Trotzdem sind mehrere experimentelle Methoden entwickelt worden, um die Lösungsmittel-Resonanz zu unterdrücken, falls man ein protoniertes Lösungsmittel benutzen muß, oder wenn die Signale der restlichen Protonen sogar in hoch deuterierten Proben noch zu stark sind. Für ein Protein, gelöst in 90 % H2O / 10 % D2O, ist die Konzentration von Lösungsmittel-Protonen ungefähr fünf Größenordnungen größer als die Konzentration der Protonen der gelösten Proteine. Deshalb ist die Auswertung von multidimensionalen NMR Spektren häufig unvollständig, weil bestimmte Resonanzen vom Interesse (z.B Hα Proton-Resonanzen) vom Signal des Lösungsmittels überdeckt sind. Auch können Signalteile des Lösungsmittels als „cross peaks“ des Proteins fehlgedeutet werden. Experimentelle Unterdrückungsverfahren sind typisch nicht geeignet, diese wichtigen Protein-Signale wiederzubekommen. Viele Nachbearbeitungsmethoden sind entwickelt worden, um dieses Problem zu überwinden.
In dieser Arbeit sind mehrere Algorithmen für die Unterdrückung des Wassersignals entwickelt und verglichen worden. Insbesondere ist gezeigt worden, dass die „Singular-Spectrum-Analysis“ (SSA) vorteilhaft angewandt werden kann, um die Lösungsmittel-Resonanz aus den NMR Spektren jeglicher Dimensionalität zu entfernen, seien sie nun digital oder analog erworben worden. Insbesondere die untersuchten Zeitdomäne-Signale (FIDs) werden in Wasser- und Protein-Komponenten aufgeteilt mittels einer anfänglichen Einbettung der Daten im Raum zeitverzögerter Koordinaten. Eine Eigenwertzerlegung wird auf diesen Daten angewandt. Die Komponente mit der höchsten Abweichung (typisch vertreten durch das dominierende Lösungsmittel-Signal) wird vor der Umkehr der Einbettung willentlich weggelassen. Vorverarbeitung (group delay Management und Signalnormalisierung) und Nachbearbeitung (umgekehrte Normalisierung, Fourier Transform und Phase- und Baseline-Korrektur) der NMR Daten sind obligatorisch, um eine bessere Unterdrückung zu erlangen. Die optimale Einbettungs-Dimension wird empirisch ermittelt, in Übereinstimmung mit einer spezifischen qualitativen und quantitativen Analyse von extrahierten Komponenten, angewandt auf ein zurückgerechnetes zweidimensionales Spektrum des HPr Proteins von Staphylococcus aureus.
Außerdem hat die Untersuchung von experimentellen Daten (dreidimensionales 1H13C HCCH-TOCSY Spektrum des Trx Proteins von Plasmodium falciparum und zweidimensionales NOESY und TOCSY Spektrum des HPr Proteins von Staphylococcus aureus) die Fähigkeit des Algorithmus offenbart, unter dem Wassersignal verborgene Resonanzen zurückzugewinnen.
Pathologische Krankheiten und die Wirkungen von Arzneimitteln und Lebensstil können von der NMR Spektroskopie entdeckt werden, angewandt auf Proben von Körperflüssigkeiten (z.B Urin, Blut, Speichel). Die Aufdeckung von Signalen vom Interesse in solchen Spektren ist häufig durch das Lösungsmittel behindert. Der SSA Algorithmus ist auch auf eindimensionale Urin-, Blut- und Zell-Spektren erfolgreich angewandt worden.
Der Algorithmus zur automatisierten Unterdrückung des Lösungsmittels ist in das AUREMOL Software-Paket (AUREMOL_SSA) integriert worden. Er wird durch eine automatisierte Baseline-Korrektur in der Frequenz-Domäne (AUREMOL_ALS) ergänzt, die auch unabhängig durchgeführt werden kann. Die automatisierte Erkennung von Baseline-Punkten wird in Abhängigkeit von der Dimensionalität der Daten unterschiedlich durchgeführt.
Um die Beschränkungen des SSA Algorithmus zu untersuchen, ist er auf Spektren angewandt worden, deren dominierendes Signal nicht das Signal des Lösungsmittels war, also z. B. im Falle einer mit „watergate“ durchgeführten Unterdrückung des Lösungsmittels oder im Falle zurückberechneter Daten ohne experimentelles Wassersignal.
Die „Independent Componenten Analysis“ (ICA) bildet eine zulässige Alternative zur Wasserunterdrückung, wenn das Lösungsmittelsignal nicht das dominierende Signal des Spektrums ist, also z. B. wenn es kleiner ist als die Hälfte der stärksten Resonanz des Gelösten. Insbesondere zwei Komponenten werden bei der Zerlegung erhalten: das Lösungsmittel und das Spektrum des Gelösten. Die ICA braucht als Eingabe mindestens so viele verschiedene Spektren (Mischungen) wie die Zahl der zu extrahierenden Komponenten (Quellsignale). Die Definition eines geeigneten Protokolls ist somit klar ersichtlich, um einen Datensatz von eindimensionalen, ICA- maßgeschneiderten Eingaben zu erzeugen.
Der ICA Algorithmus hat offenbart, wie die SSA Beschränkungen zu überwinden sind, um Resonanzen von Interesse zurück zu gewinnen, die mit SSA nicht zurück gewonnen werden können. Der ICA Algorithmus vermeidet Vor- und Nachbearbeitungsschritte gänzlich, da er in der Frequenz-Domäne direkt angewandt wird. Andererseits wird die Auswahl der zu extrahierenden Komponenten im SSA-Fall automatisch ermittelt. Im ICA-Fall wird eine visuelle Kontrolle der extrahierten Komponenten benötigt, da die Ausgaben keinem Ordnungsprinzip unterliegen und somit in ihrer Reihenfolge vertauschbar sind. Zudem ist auch ihre Skalierung zufällig.
Die Methode der „Empirical Mode Decomposition“ (EMD) hat sich als besser geeignet für eine automatisierte Phasen-Korrektur als zur Wasser-Unterdrückung erwiesen. Sie zerlegt den FID in mehrere intrinsische Moden, IMFs genannt, deren Frequenz von der ersten Mode bis zur Letzten abnimmt. Die automatisch identifizierten Nicht-Baseline Regionen im Fourier Spektrum der Summe des ersten IMFs werden getrennt ausgewertet, und genetische Algorithmen werden angewandt, um eine optimale Phase-Korrekture nullter- und erster Ordnung zu erhalten.
Die SSA und ALS Algorithmen sind vor Zuordnung des zweidimensionalen NOESY Spektrums (mit dem Programm KNOWNOE) der PSCD4-DOMÄNE des Proteins Pleuralin angewandt worden, um die Zahl von schon existierenden Entfernungseinschränkungen zu vergrößern. Eine neue Routine, um 3JHNHa Koppelungen aus Torsionswinkeln (Karplus Beziehung), und umgekehrt, herzuleiten, ist ebenfalls in die AUREMOL Software integriert worden.
Eine verbesserte dreidimensionale Struktur der PSCD4-DOMÄNE konnte mit den neu entwickelten Werkzeugen erhalten werden.

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

Downloadstatistik

Weitere Literatur (mittels CORE)

Details

Vorschau

Bibliographische Daten exportieren

Zusammenfassung (Englisch)

Zusammenfassung (Englisch)

Übersetzung der Zusammenfassung (Deutsch)

Übersetzung der Zusammenfassung (Deutsch)

Downloadstatistik

Downloads

Weitere Literatur (mittels CORE)

Universitätsbibliothek