| License: Publishing license for publications including print on demand (24MB) |
- URN to cite this document:
- urn:nbn:de:bvb:355-epub-205692
- DOI to cite this document:
- 10.5283/epub.20569
Item type: | Thesis of the University of Regensburg (PhD) |
---|---|
Date: | 27 April 2012 |
Referee: | PD Dr. Rainer Merkl and apl. Prof. Dr Wolfram Gronwald |
Date of exam: | 14 April 2011 |
Institutions: | Biology, Preclinical Medicine > Institut für Biophysik und physikalische Biochemie > Prof. Dr. Rainer Merkl |
Keywords: | Protein-Protein Interaktionen, protein-protein interfaces, protein complex, Proteinkomplex, Klassifikation, Support-Vektor-Maschine, supprt vector machine, SVM, Bioinformatik, Protein Interaktionsflächen, computational biology, Maschinelle Lernverfahren, Korrelierte Mutationen, Konserviertheit, Hydrophobizität, Lösungsmittelzugänglichkeit |
Dewey Decimal Classification: | 500 Science > 570 Life sciences |
Status: | Published |
Refereed: | Yes, this version has been refereed |
Created at the University of Regensburg: | Yes |
Item ID: | 20569 |
Abstract (German)
Protein-Protein Interaktionen spielen eine essentielle Rolle für jeden lebenden Organismus. Sie sind bei der Aktivierung von Enzymen ebenso wichtig wie für die Signalübertragung und Transportvorgänge. Deswegen sind ca. 80% aller Proteine in größere Komplexe eingebunden. Für ein detailliertes Verständnis eines Protein-Protein Komplexes muss dessen 3D-Struktur bekannt sein. Experimentelle Methoden ...

Abstract (German)
Protein-Protein Interaktionen spielen eine essentielle Rolle für jeden lebenden Organismus. Sie sind bei der Aktivierung von Enzymen ebenso wichtig wie für die Signalübertragung und Transportvorgänge. Deswegen sind ca. 80% aller Proteine in größere Komplexe eingebunden. Für ein detailliertes Verständnis eines Protein-Protein Komplexes muss dessen 3D-Struktur bekannt sein. Experimentelle Methoden zur Bestimmung der Protein 3D-Struktur sind jedoch langwierig und aufwändig. Daher ist es sinnvoll, parallel oder alternativ Computerprogramme zu verwenden, um Strukturvorschläge zu generieren. Dazu gehört als wichtiger Teilaspekt die computergestützte Vorhersage von Protein-Protein Kontaktflächen (PPK).
In dieser Arbeit wurde die Software PresCont entwickelt, die anhand von 5 Merkmalen, basierend auf der 3D-Struktur des Monomers und evolutionärer Information aus einem Multiplen Sequenzalignment (MSA) homologer Proteinsequenzen, eine Vorhersage der PPK ableitet. Im Gegensatz zu anderen, etablierten Programmen benutzt PresCont lediglich solche Merkmale einer PPK, die einen hohen Beitrag zur Vorhersage leisten und ignoriert Merkmale, die im Vergleich zu anderen Eigenschaften wenig zusätzliche Information liefern. Die fünf, von PresCont verwendeten Merkmale sind Exponiertheit der Aminosäureseitenkette, Häufigkeiten von Aminosäurepaaren, Größe und Vorkommen hydrophober Patches, evolutionäre Konserviertheit und Konnektivität, die als Meta-Eigenschaft mehrere intermolekulare Scores zusammenfasst. Die ersten vier Merkmale wurden bereits häufiger zur Vorhersage von PPKs verwendet, die Eigenschaft Konnektivität wurde bisher nicht benutzt. In PresCont wird durch die Eigenschaft der Konnektivität ein Score für einzelne Positionen aus dem Vorkommen intermolekularer Kontaktpaare abgeleitet.
Die Klassifikationsleistung von PresCont konnte zusätzlich gesteigert werden durch die Mittelung der Signale über die lokale Nachbarschaft einzelner Positionen. Nach Normierung wurden die erwähnten Merkmale unter Verwendung einer Support Vektor Maschine (SVM) zu einer aussagekräftigen Vorhersage kombiniert. SVMs haben sich in der Bioinformatik als robuste Klassifikatoren bewährt. Ein wesentlicher Aspekt der Arbeit war es, einen robusten Ansatz zu entwickeln. Daher wurde bewusst die Anzahl der Merkmale beschränkt und es wurden Signale gemittelt, um das Rauschen zu reduzieren.
Die Klassifikationsleistung von PresCont wurde mit der von Sppider und ProMate verglichen. Sppider ist ein Vertreter für Klassifikatoren obligater PPKs, ProMate wurde speziell für transiente PPKs entwickelt. Wie zu erwarten, übertrifft die Performanz von Sppider und PresCont gemessen an einem Datensatz obligater Homodimere diejenige von ProMate. Interessanterweise erreicht PresCont mit seinem wesentlich einfacheren Aufbau eine sehr ähnliche Vorhersagequalität wie Sppider. An einem Datensatz transienter Heterodimere hingegen übertrifft die Qualität der Vorhersage von ProMate diejenige von PresCont und Sppider. Es scheint folglich nicht möglich zu sein, einen Klassifikator zu entwickeln, der sowohl für obligate als auch für transiente Komplexe gleich hohe Klassifikationsleistung erreicht.
Mit dieser Arbeit wurde belegt, dass die Bewertung von fünf aussagekräftigen Merkmalen ausreicht, um mithilfe einer SVM einen leistungsfähigen Klassifikator zu entwickeln. Dieser steht anderen Verfahren, die ebenfalls den Stand der Technik repräsentieren, aber wesentlich mehr Eigenschaften bewerten und eine komplexere Software-Architektur besitzen, in der Klassifikationsleistung nicht nach.
Translation of the abstract (English)
It has been estimated that approximately 80% of all proteins perform their tasks in cellular processes not as individual monomers but as elements of larger oligomeric complexes. Within these complexes proteins interact; thus the activation of enzymes, signal transduction or transport processes are mediated by means of protein-protein interfaces. A prerequisite for a detailed description of a ...

Translation of the abstract (English)
It has been estimated that approximately 80% of all proteins perform their tasks in cellular processes not as individual monomers but as elements of larger oligomeric complexes. Within these complexes proteins interact; thus the activation of enzymes, signal transduction or transport processes are mediated by means of protein-protein interfaces. A prerequisite for a detailed description of a protein complex and an understanding of its function is the 3D-structure at atomic level. However, experimental methods for structure determination are still expensive and time-consuming, especially if the structures of larger complexes have to be elucidated. Therefore, computational methods aimed at predicting the structure of protein complexes are for these cases an important alternative and constitute in more general terms a useful method supplementing experimental results.
For the prediction of a complex structure, protein-protein interfaces have to be identified beforehand. It was the aim of this thesis to design and develop the computer program PresCont, which tries to solve this problem. The algorithm predicts protein interfaces utilizing five properties of amino acid residues. PresCont deduces these features from the 3D-structure of the monomeric proteins and from a multiple sequence alignment of homologous proteins. In contrast to other state-of-the-art algorithms, PresCont uses only properties, which considerably improve prediction quality and ignores those ones, which contribute only marginally to classification quality. This concept helped to reach a major goal of the project, namely to design a robust classifier. The five residue properties assessed by PresCont are relative solvent accessibility, frequencies of residue pairs, size and appearance of hydrophobic patches, residue conservation as deduced for individual positions from the multiple sequence alignment, and residue connectivity, which subsumes several inter-molecular scores as a meta property for individual residues. Whereas the first four properties have already been used previously to predict protein-protein interfaces, connectivity is a novel feature introduced here for the first time.
PresCont's classification quality improved when the signals were averaged for a local neighbourhood of every single position. These signals were used to classify residues as being located at the protein interface or at the rest of the surface. For this task, a support vector machine (SVM) was utilised which is in computational biology considered a robust classifier.
PresCont was compared on classification quality with the programs Sppider and ProMate. These algorithms were chosen, as Sppider performs well on obligate protein-protein interfaces, whereas ProMate was designed to predict the interfaces of transient, i.e. less stable complexes. As expected, Sppider and PresCont reached a comparable prediction quality and outperformed ProMate in classifying obligate homodimers. This finding is noteworthy, as PresCont has a less complicated design. In contrast, ProMate surpassed the performance of Sppider and PresCont when classifying heterodimers. These results identify the design of a general purpose classifier, which performs equally well on obligate and transient complexes, as a non-trivial task.
In summary, the results demonstrate that the assessment of five residue properties is sufficient to develop a strong classifier based on an SVM. PresCont reaches the same classification quality as other state-of-the-art approaches, however based on a much simpler concept.
Metadata last modified: 26 Nov 2020 06:56