| License: Publishing license for publications including print on demand (4MB) |
- URN to cite this document:
- urn:nbn:de:bvb:355-epub-216155
- DOI to cite this document:
- 10.5283/epub.21615
Item type: | Thesis of the University of Regensburg (PhD) |
---|---|
Open Access Type: | Primary Publication |
Date: | 5 July 2011 |
Referee: | Prof. Dr. Elmar Lang and Prof. Dr. Ingo Morgenstern |
Date of exam: | 13 July 2011 |
Institutions: | Medicine > Institut für Funktionelle Genomik > Lehrstuhl für Funktionelle Genomik (Prof. Oefner) |
Keywords: | Docking, scoring, protein-protein-complexes, bioinformatics, HADDOCK, PROCOS |
Dewey Decimal Classification: | 500 Science > 530 Physics |
Status: | Published |
Refereed: | Yes, this version has been refereed |
Created at the University of Regensburg: | Yes |
Item ID: | 21615 |
Abstract (English)
The content of this work is, of course, condensed in the title. But what means "Computational Analysis of Docked Protein-Protein Complexes" in more detail? First of all, the objects of investigation are complexes between proteins. Not single proteins, not complexes between proteins and peptides and, to constrict it even more, only complexes of exactly two proteins, never more. So the analysis is ...
Abstract (English)
The content of this work is, of course, condensed in the title. But what
means "Computational Analysis of Docked Protein-Protein Complexes" in
more detail? First of all, the objects of investigation are complexes between
proteins. Not single proteins, not complexes between proteins and peptides
and, to constrict it even more, only complexes of exactly two proteins, never
more. So the analysis is done on dimeric protein complexes. Next, the title
tells that the complexes are docked. That means, that the structures of
interest did not arise out of experiments like X-ray crystallography or NMR
spectroscopy but were calculated from docking algorithms. These algorithms
take the experimentally solved structures from single proteins and simulate
the process of complex formation. Their output is usually a huge number of
putative complex conformations, which, in the best case, contains some near
native structures. The native structure is the complex as it exists in nature.
Near native structures have similar conformations as the native structure
and are the optimum docking algorithms can reach. The big challenge is
to find these near native structures among the - often more than 1000 -
solutions. This subject was addressed during the here presented work by
creating a scoring algorithm, which is able to judge the proposed solutions
from docking algorithms. The developed PROtein COmplex analysis Server
(PROCOS) is not only able to calculate a score for each solution and by this
provide a ranking that filters the best complexes to the top, as existing
scoring algorithms do, but computes a probability for each complex to be
native. This goal is achieved by calculating some energetically properties
of a complex and compare these properties to those of a huge database of
native and false complexes. Thereby, it is possible to decide to which group
an investigated structure is more likely to belong: The native or the false
complexes. The output of PROCOS is the probability that the analyzed
complex belongs to the group of native complexes.
After developping PROCOS, the algorithm was extensively tested and compared
to other scoring algorithms. Out of 96 native test complexes PROCOS
identified 87 as near native (PROCOS-probability above 50%). Other algorithms
always result in scores for the complexes. For this test case ZRANK
obtained values between -814 and -14 and DFIRE between -234 and 301. In
this simple example it becomes already clear that PROCOS is superior to
other methods by means of the interpretation of the results. A probability
gives an understandable information on a single structure. A score only
helps to rank many results but does not state anything about the absolute
qualities of the structures. Further tests on larger datasets showed that the
performance of PROCOS to identify near native complexes is comparable to
existing algorithms and in some cases even better.
In the last chapter two examples of docking applications are discussed that
were performed during this work, too. This part addresses the step that has
to be done before scoring: docking. In this context the docking program
HADDOCK was used to take part in basic research on protein based drug
development. The first study was done on the complex formation of Saratin,
which can be extracted from the saliva of leeches, and Collagen, which is
the main part of human tissue. This interaction is of special interest as it
was observed that Saratin prohibits blood coagulation and could therefore be
used in a drug to prevent this mechanism. The docking experiment elucidated
the complex formation of Saratin and Collagen, could identify the interface
between the two proteins and predicted the conformation of the complex.
In the second study the melanoma inhibitory activity (MIA) protein was investigated.
It is secreted from melanoma cells of skin cancer and causes the
formation of metastases. Two docking experiments were done in this case:
Since there is a hypothesis that MIA is only active as dimer, the complex
structure of this dimer was modeled with HADDOCK. Then, in connection
with the clinical research of finding a process to inhibit the formation of
metastases formation, a putative complex formation of MIA and a small
peptide AR71 was modeled. The fact, that the interface of the MIA dimer
covers the same region as the peptide AR71 when it interacts with MIA,
suggested to take AR71 into account as a deactivator of MIA. Further clinical
investigations on mouse models actually showed a reduced formation of
metastases on application of AR71.
In this work, the whole process of computer based prediction of protein complexes
was studied with a strong focus on the last step of this process: The
identification of near native protein complexes among 100s of putative docking
solutions. The result is the scoring algorithm PROCOS, which is publically
available on the internet under http://compdiag.uni-r.de/procos/.
Translation of the abstract (German)
Der Inhalt dieser Arbeit ist im Titel kurz zusammengefasst. Aber was bedeutet „Computergestützte Analyse von gedockten Protein-Protein Komplexen“ im Einzelnen? Zunächst einmal wird ersichtlich, dass die zu untersuchenden Objekte Komplexe von Proteinen sind. Nicht einzelne Proteine, keine Komplexe zwischen Proteinen und Peptiden und, um noch weiter einzuschränken, nur Komplexe aus genau zwei ...
Translation of the abstract (German)
Der Inhalt dieser Arbeit ist im Titel kurz zusammengefasst. Aber was bedeutet „Computergestützte Analyse von gedockten Protein-Protein Komplexen“ im Einzelnen? Zunächst einmal wird ersichtlich, dass die zu untersuchenden Objekte Komplexe von Proteinen sind. Nicht einzelne Proteine, keine Komplexe zwischen Proteinen und Peptiden und, um noch weiter einzuschränken, nur Komplexe aus genau zwei Proteinen, niemals mehr. Die Analyse beschränkt sich also auf dimerische Proteinkomplexe. Desweiteren steht im Titel dass es sich um gedockte Komplexe handelt. Das bedeutet, dass die im Fokus stehenden Komplexe nicht das Ergebnis von experimentellen Methoden wie Röntgenkristallographie oder NMR Spektroskopie sind sondern von Dockingalgorithmen berechnet wurden. Diese Algorithmen benutzen die experimentell gelösten, einzelnen Proteine als Input und simulieren den Prozess der Komplexbildung. Als Ergebnis liefern sie normalerweise eine große Anzahl an möglichen Komplexstrukturen die im besten Fall auch einige Strukturen enthalten, die der nativen Struktur sehr ähnlich sehen (sog. „near natives“). Die native Struktur ist die Struktur des Komplexes wie er in der Natur vorkommt. Near native Strukturen sind das Optimum, das von Dockingalgorithmen erreicht werden kann. Die große Herausforderung besteht darin unter den vielen (häufig über 1000) möglichen Lösungsstrukturen die optimalen herauszusuchen. Dieses Thema wurde in der vorliegenden Arbeit angegangen, indem ein Scoringalgorithmus entwickelt wurde, der die vorgeschlagenen Lösungen von Dockingalgorithmen bewerten kann. Der PROtein COmlpex analysis Server (PROCOS) ist nicht nur in der Lage die besten Komplexe aus einem Dockinglauf in die oberen Positionen eines Rankings zu befördern, wie es viele Dockingalgorithmen können, sondern berechnet darüber hinaus eine Wahrscheinlichkeit für jeden Komplex nativ zu sein. Dieses Ziel wurde erreicht, indem von jedem Komplex einige energetische Eigenschaften berechnet werden, die dann mit den selben Eigenschaften einer großen Datenbank von nativen und falschen Komplexen verglichen werden. Dadurch wird es möglich zu entscheiden, zu welcher der beiden Gruppen ein untersuchter Komplex wahrscheinlich gehört: Zu den falschen oder den richtigen Komplexen. Die Ausgabe von PROCOS ist die Wahrscheinlichkeit, das der analysierte Komplex zur Gruppe der nativen Komplexe gehört.
Im Anschluss an die Entwicklung wurde PROCOS ausgiebig getestet und mit anderen Scoringalgorithmen verglichen. Von 96 nativen Teststrukturen wurden von PROCOS 87 als near native erkannt (PROCOS-Wahrscheinlichkeit über 50%. Andere Algoritrhmen geben immer nur Scores für jeden Komplex aus. In diesem Test, ergab ZRANK Werte zwischen -814 und -14 und DFIRE Werte zwischen -234 und 301. Schon in diesem einfachen Beispiel wird deutlich, dass PROCOS im Hinblick auf die Interpretation der Daten den anderen Algorithmen überlegen ist. Eine Wahrscheinlichkeit gibt eine verständliche Information über eine einzelne Struktur. Ein Score gibt nur die Möglichkeit viele Strukturen zu sortieren, sagt aber nichts über deren absolute Qualität aus. In weiter Tests mit größeren Datensätzen konnte gezeigt werden, dass PROCOS ähnlich gut wie andere Programme in der Lage ist near native Strukturen zu identifizieren.
Im letzten Kapitel werden zwei Dockinganwendungen vorgestellt, die im Rahmen dieser Arbeit durchgeführt wurden. Dieser Teil handelt von dem Schritt der vor dem Scoring durchgeführt wird, dem Docking. Für die Durchführung wurde der Dockingalgorithmus HADDOCK verwendet um die Grundlagenforschung im Bereich der Protein basierten Medikamentenentwicklung zu unterstützen. Zunächst wurde die Komplexbildung zwischen Saratin, das aus dem Speichel von Blutegeln extrahiert werden kann, und Kollagen, das der Hauptbestandteil von menschlichem Gewebe ist. Die Interaktion zwischen diesen beiden Proteinen ist von besonderem Interesse, da beobachtet wurde, dass Saratin die Blutgerinnung hemmen kann und deshalb als Medikament verwendet werden könnte um diesen Mechanismus zu hemmen. Das Dockingexperiment konnte die Komplexbildung von Saratin und Kollagen darstellen, die Interfacefläche zwischen den beiden Proteinen identifizieren und die Struktur vorhersagen.
Desweiteren wurde das „melanoma inhibitory activity (MIA) Protein untersucht. Es kann aus Hautkrebszellen extrahiert werden und ist für die starke Metastasenbildung bei dieser Krebsart verantwortlich. In diesem Fall wurde zwei Dockingexperimente durchgeführt: Da es die Hypothese gibt, dass MIA nur als Dimer aktiv ist wurde dieser Komplex aus zwei MIA Proteinen mit HADDOCK modelliert. Danach wurde, in Zusammenarbeit mit klinischen Untersuchungen zur Identifizierung von Inhibitoren für diese Komplexbildung, ein hypothetischer Komplex von MIA und dem Peptid AR71 modelliert. Das Resultat, dass das Interface des MIA-Dimers die gleichen Aminosäuren beinhaltet wie AR71 wenn es mit MIA interagiert ist ein deutlicher Hinweis darauf, dass AR71 als Deaktivator von MIA in Betracht gezogen werden kann. Weiter klinische Studien im Mausmodell konnten zeigen, dass die Metastasenbildung durch die Gabe von AR71 tatsächlich signifikant gesenkt werden konnte.
In dieser Arbeit wurde der gesamte Prozess der computergestützten Vorhersage von Proteinkomplexen untersucht, mit einem deutlich Fokus auf dem letzten Schritt: Der Identifikation von near native Lösungen unter 100en von möglichen gedockten Strukturen. Das Ergebnis der Arbeit ist der Scoringalgorithmus PROCOS, der im Internet unter http://compdiag.uni-r.de/procos/ öffentlich verwendbar ist.
Metadata last modified: 26 Nov 2020 06:18