Enzymes are highly efficient bio-catalysts interesting for industries and medicine. Therefore, a goal of utmost importance in biochemical research is to understand how an enzyme catalyzes a chemical reaction. Here, the computational identification of functionally or structurally important residue positions can be of tremendous help. The datasets that are most informative for the algorithms are ...
Zusammenfassung (Englisch)
Enzymes are highly efficient bio-catalysts interesting for industries and medicine. Therefore, a goal of utmost importance in biochemical research is to understand how an enzyme catalyzes a chemical reaction. Here, the computational identification of functionally or structurally important residue positions can be of tremendous help. The datasets that are most informative for the algorithms are the 3D structure of a protein and a multiple sequence alignment (MSA) composed of homologous sequences. For example, an MSA allows for the quantification of residue conservation. Residue conservation at a given position indicates that only one type of amino acid fulfills all constraints imposed by protein structure or function. Furthermore, a detailed analysis of less strictly conserved residue positions may identify pairs, whose orchestration is mutually dependent and induces correlated mutations. Both of these conservation signals are indicative of functionally or structurally important positions. In the first part of this thesis, methods of machine learning were used to identify and classify these residue positions. It was the aim to predict in a mutually exclusively manner a role in catalysis, ligand-binding or protein stability for each residue position of a protein. Unfortunately, for many proteins the 3D structure is unknown. For other proteins, the number of known homologs is not sufficient to compile a meaningful MSA. Therefore, three variants of a classifier were designed and implemented, named CLIPS-1D, CLIPS-3D, and CLIPS-4D. These multi-class support vector machines allow for a classification based on an MSA (CLIPS-1D), a 3D structure (CLIPS-3D), and a combination of both (CLIPS-4D). CLIPS-1D exploits seven sequence-based features, whereas CLIPS-3D utilizes seven structure-based features. CLIPS-4D combines the seven sequence-based features of CLIPS-1D with those two structure-based features that increased its classification performance. A comparison with existing methods and a detailed analysis on a well-studied enzyme confirmed state-of-the-art prediction quality for CLIPS-1D and CLIPS-4D. In the second part of this thesis an algorithm for the identification of correlated mutations was improved. A common method for the identification of correlated mutations is to deduce the mutual information (MI) of a pair of residue positions from an MSA. The classical MI is based on Shannon’s information theory that utilizes probabilities only. Consequently, these approaches do not consider the similarity of residue pairs, which is a severe limitation. In order to improve these algorithms, H2rs was developed for this thesis. Thus, the MIvalues originate from the von Neumann entropy (vNE), which takes into account amino acid similarities modeled by means of a substitution matrix. To further improve the specificity of H2rs, the significance of MIvNE-values was assessed with a bootstrapping approach. The analysis of a large in silico testbed and the detailed assessment of five well-studied enzymes demonstrated state-of-the-art performance.
Übersetzung der Zusammenfassung (Deutsch)
Enzyme sind hocheffiziente Biokatalysatoren, die sowohl für industrielle als auch für medizinische Anwendungen höchst interessant sind. Deshalb ist es eines der wichtigsten Ziele biochemischer Forschung zu verstehen wie Enzyme chemische Reaktion katalysieren. Dafür ist eine computergestützte Identifikation von funktionell oder strukturell wichtigen Aminosäuren von außerordentlicher Hilfe. Die ...
Übersetzung der Zusammenfassung (Deutsch)
Enzyme sind hocheffiziente Biokatalysatoren, die sowohl für industrielle als auch für medizinische Anwendungen höchst interessant sind. Deshalb ist es eines der wichtigsten Ziele biochemischer Forschung zu verstehen wie Enzyme chemische Reaktion katalysieren. Dafür ist eine computergestützte Identifikation von funktionell oder strukturell wichtigen Aminosäuren von außerordentlicher Hilfe. Die Datensätze mit dem größten Informationsgehalt für solche Algorithmen sind Protein 3D-Strukturen und multiple Sequenzalignments (MSAs), die aus homologen Sequenzen bestehen. MSAs erlauben es beispielweise die Konservierheit einzelner Aminosäuren zu quantifizieren. Die strikte Konserviertheit einer Aminosäure an einer bestimmten Position zeigt, dass nur ein Typ von Aminosäure alle Anforderungen der Struktur und Funktion erfüllt. Darüber hinaus kann die Analyse weniger strikt konservierter Aminosäuren solche Paare identifizieren, die voneinander abhängig sind und deshalb korrelierte Mutationen auslösen. Diese beiden Konserviertheitssignale deuten auf funktionell oder strukturell wichtige Aminosäuren hin. In dieser Arbeit wurden Methoden des maschinellen Lernens dazu verwendet solche Aminosäuren zu identifizieren und zu klassifizieren. Ziel war es für jede Aminosäure eines Proteins eine Rolle in der Katalyse, der Ligandenbindung oder der Proteinstabilität vorherzusagen. Leider ist die 3D-Struktur vieler Proteine noch nicht bekannt. Für andere Proteine ist es nicht möglich ein MSA von ausreichender Größe und Qualität zu erzeugen. Deshalb wurden drei Varianten eines Klassifikator entwickelt: CLIPS-1D, CLIPS-3D und CLIPS-4D. Diese Mehrklassen Support Vektor Maschinen ermöglichen eine Klassifikation anhand eines MSAs (CLIPS-1D), einer 3D Struktur (CLIPS-3D) oder beidem (CLIPS-4D). CLIPS-1D nutzt sieben sequenz-basierte Merkmale. CLIPS-3D hingegen nutzt sieben struktur-basierte Merkmale. LIPS-4D wiederum kombiniert die sieben sequenz-basierten Merkmale von CLIPS-1D mit den zwei struktur-basierten Merkmalen von CLIPS-3D, die die Klassifikation verbesserten. Ein Vergleich mit etablierten Methoden und eine detaillierte Analyse eines gut untersuchten Enzyms bestätigten für CLIPS-1D und CLIPS-4D eine Vorhersagequalität auf dem Stand der Technik. Eine weit verbreitete Methode um korrelierte Mutationen zu identifizieren, ist die Bestimmung der Transinformation (MI) eines Aminosäurepaares anhand eines MSAs. Die klassischeMI basiert auf Shannon’s Informationstheorie, die nur Wahrscheinlichkeiten zur Berechnung heranzieht. Folglich können diese Methoden Ähnlichkeiten von Aminosäuren nicht berücksichtigen, was eine große Einschränkung darstellt. Deshalb wurde in dieser Arbeit der Algorithmus H2rs entwickelt. Hier basieren die MI-Werte auf der von Neumann Entropie (vNE), die Aminosäureähnlichkeiten in Form einer paarweisen Ähnlichkeitsmatrix berücksichtigt. Um die Spezifität von H2rs weiter zu verbessern, wurde die Signifikanz der MIvNE-Werte durch einen Bootstrapping-Ansatz bestimmt. Die Auswertung eines großen Datensatzes und eine detaillierte Analyse von fünf gut untersuchten Enzymen hat für H2rs eine Vorhersagequalität auf dem Stand der Technik bestätigt.