Header

UZH-Logo

Maintenance Infos

Protein interfaces in crystal structures: insights from evolution


Duarte Gamero, Jose Manuel. Protein interfaces in crystal structures: insights from evolution. 2013, University of Zurich, Faculty of Science.

Abstract

Summary This doctoral thesis revolves around understanding protein-protein interfaces as found in protein crystal structures solved via X-ray crystallography. Protein structures are known in atomic detail thanks to X-ray diffraction experiments performed nowadays mostly at synchrotron radiation sources. In these experiments, proteins are however not in their native solution environment. Instead, they are first crystallized so that they can strongly diffract the incoming X-ray beams and produce measurable diffraction patterns.
In the formation of the crystal an essential piece of information disappears: the interfaces that different polypeptide chains form among them in the solution environment are lost when the protein arranges into a crystal lattice. The diffraction data offers the detailed position of the atoms in the protein fold – the Tertiary Structure – but does not tell explicitly about the arrangement of the chains together into a Quaternary Structure. The crystal lattice thus contains two kinds of contacts among polypeptide chains: non-specific ones, consequence of the formation of the crystal lattice and specific ones that are biologically relevant.
We aim mainly at computationally distinguishing these two kinds of protein interfaces. The key difference between the two types is that biological interfaces have been subjected to the forces of evolution. Here, the abundant data coming from DNA sequencing technologies provides the required evolutionary background information that can be connected to the structural data. By combining the patterns of evolution seen in Multiple Sequence Alignments and the protein’s 3-dimensional coordinates we try to detect the footprint of evolution on protein interfaces in order to differentiate them from crystal lattice contacts.
We show how we developed such a method and demonstrate that it is very effective at classifying biological interfaces from crystal contacts. Thus the method contributes greatly to the interpretation of protein crystal structures indicating the correct biological unit assembly that the proteins possess in their native environment.
The classification method was initially developed with soluble proteins in mind. In a second part of the study, however, we also proved its applicability to the interfaces found in crystals of membrane protein structures. A necessary step in this analysis was to compile a validated set of transmembrane protein-protein interfaces from the known set of membrane structures deposited in the Protein Data Bank. Such a dataset constitutes the first comprehensive compilation of validated transmembrane protein interfaces. Through it we have tried to establish the principles of how interfaces assemble in the transmembrane region and how they compare to those of soluble proteins.
We thus established the applicability of the newly developed method, called EPPIC, in both the soluble protein and the membrane protein worlds. We finally offer a robust implementation of the method in a stand-alone software package and in a web graphical user interface, making it available to the wide structural biology and bioinformatics communities. Zusammenfassung Diese Arbeit befasst sich mit der Analyse von Protein-Protein-Kontaktoberflächen, wie sie bei der Proteinstrukturermittlung mittels Röntgenkristallographie auftreten. Die räumliche Struktur von Proteinen kann durch Röntgenbeugungsexperimente ermittelt werden. Dabei liegen die Proteine nicht wie in der biologischen Umgebung in gelöster Form vor, sondern werden zunächst kristallisiert, so dass die auftreffenden Röntgenstrahlen stark gebeugt werden, und zu messbaren Beugungsmustern führen.
Bei der Kristallbildung geht die Information verloren, welche spezifischen Kontakte die Proteine in der gelösten Umgebung bilden. Die Messdaten erlauben die Bestimmung der räumlichen Anordnung des gefalteten Proteins (die Tertiärstruktur) innerhalb der Kristallanordnung, nicht aber die Komplexbildung in der biologischen Umgebung (Quarternärstruktur). Anhand der Messdaten lässt sich also nicht unterscheiden zwischen Kontakten, die nur im Kristall auftreten und solchen, die in der biologischen Umgebung relevant sind.
Das Ziel dieser Arbeit ist, die Unterscheidung dieser beiden Arten von Kontakten mit Hilfe von computergestützten Methoden. Die Unterscheidung basiert auf der Tatsache, dass biologische Kontakte im Gegensatz zu kristallinen Kontakten evolutionärer Selektion unterworfen sind. Die moderne DNS-Sequenziertechnologie liefert eine große Menge an Daten über evolutionäre Prozesse in Biomolekülen. Durch die Kombination dieser Daten in der Form von multiplen Sequenzalignments mit den Proteinstrukturdaten detektieren wir die evolutionären Einflüsse auf die Kontaktoberflächen, um sie dadurch von den reinen Kristallkontakten zu unterscheiden.
Wir beschreiben die Methode im Detail und demonstrieren, dass sie effektiv zwischen biologischen und Kristallkontakten unterscheidet. Damit leistet die Methode einen wichtigen Beitrag zur Interpretation von Proteinkristallstrukturen und ermöglicht Rückschlüsse auf die biologische Anordnung von Proteinen in ihrer natürlichen Zellumgebung.
Die Methode wurde zunächst für lösliche Proteine entwickelt. In einem zweiten Teil zeigen wir, wie sie sich auch auf membrangebundene Proteine anwenden lässt. Dazu war zunächst die Zusammenstellung eines verifizierten Datensatzes von transmembranen Protein-Protein-Kontakten notwendig. Dies ist zugleich der erste umfangreiche und öffentliche Datensatz von verifizierten Transmembrankontakten. Anhand dieser Daten zeigen wir Prinzipien der Komplexbildung in der Membranumgebung und wie sich diese von derer in löslicher Umgebung unterscheiden. Unsere Methode, genannt EPPIC, ist damit sowohl für lösliche als auch für Membranproteine anwendbar. Schließlich zeigen wir eine robuste Software- Implementierung der Methode sowohl als eigenständiges Programm als auch als web-basierter Online-Service, der somit der weltweiten Forschungsgemeinde zur Nutzung zur Verfügung steht.

Abstract

Summary This doctoral thesis revolves around understanding protein-protein interfaces as found in protein crystal structures solved via X-ray crystallography. Protein structures are known in atomic detail thanks to X-ray diffraction experiments performed nowadays mostly at synchrotron radiation sources. In these experiments, proteins are however not in their native solution environment. Instead, they are first crystallized so that they can strongly diffract the incoming X-ray beams and produce measurable diffraction patterns.
In the formation of the crystal an essential piece of information disappears: the interfaces that different polypeptide chains form among them in the solution environment are lost when the protein arranges into a crystal lattice. The diffraction data offers the detailed position of the atoms in the protein fold – the Tertiary Structure – but does not tell explicitly about the arrangement of the chains together into a Quaternary Structure. The crystal lattice thus contains two kinds of contacts among polypeptide chains: non-specific ones, consequence of the formation of the crystal lattice and specific ones that are biologically relevant.
We aim mainly at computationally distinguishing these two kinds of protein interfaces. The key difference between the two types is that biological interfaces have been subjected to the forces of evolution. Here, the abundant data coming from DNA sequencing technologies provides the required evolutionary background information that can be connected to the structural data. By combining the patterns of evolution seen in Multiple Sequence Alignments and the protein’s 3-dimensional coordinates we try to detect the footprint of evolution on protein interfaces in order to differentiate them from crystal lattice contacts.
We show how we developed such a method and demonstrate that it is very effective at classifying biological interfaces from crystal contacts. Thus the method contributes greatly to the interpretation of protein crystal structures indicating the correct biological unit assembly that the proteins possess in their native environment.
The classification method was initially developed with soluble proteins in mind. In a second part of the study, however, we also proved its applicability to the interfaces found in crystals of membrane protein structures. A necessary step in this analysis was to compile a validated set of transmembrane protein-protein interfaces from the known set of membrane structures deposited in the Protein Data Bank. Such a dataset constitutes the first comprehensive compilation of validated transmembrane protein interfaces. Through it we have tried to establish the principles of how interfaces assemble in the transmembrane region and how they compare to those of soluble proteins.
We thus established the applicability of the newly developed method, called EPPIC, in both the soluble protein and the membrane protein worlds. We finally offer a robust implementation of the method in a stand-alone software package and in a web graphical user interface, making it available to the wide structural biology and bioinformatics communities. Zusammenfassung Diese Arbeit befasst sich mit der Analyse von Protein-Protein-Kontaktoberflächen, wie sie bei der Proteinstrukturermittlung mittels Röntgenkristallographie auftreten. Die räumliche Struktur von Proteinen kann durch Röntgenbeugungsexperimente ermittelt werden. Dabei liegen die Proteine nicht wie in der biologischen Umgebung in gelöster Form vor, sondern werden zunächst kristallisiert, so dass die auftreffenden Röntgenstrahlen stark gebeugt werden, und zu messbaren Beugungsmustern führen.
Bei der Kristallbildung geht die Information verloren, welche spezifischen Kontakte die Proteine in der gelösten Umgebung bilden. Die Messdaten erlauben die Bestimmung der räumlichen Anordnung des gefalteten Proteins (die Tertiärstruktur) innerhalb der Kristallanordnung, nicht aber die Komplexbildung in der biologischen Umgebung (Quarternärstruktur). Anhand der Messdaten lässt sich also nicht unterscheiden zwischen Kontakten, die nur im Kristall auftreten und solchen, die in der biologischen Umgebung relevant sind.
Das Ziel dieser Arbeit ist, die Unterscheidung dieser beiden Arten von Kontakten mit Hilfe von computergestützten Methoden. Die Unterscheidung basiert auf der Tatsache, dass biologische Kontakte im Gegensatz zu kristallinen Kontakten evolutionärer Selektion unterworfen sind. Die moderne DNS-Sequenziertechnologie liefert eine große Menge an Daten über evolutionäre Prozesse in Biomolekülen. Durch die Kombination dieser Daten in der Form von multiplen Sequenzalignments mit den Proteinstrukturdaten detektieren wir die evolutionären Einflüsse auf die Kontaktoberflächen, um sie dadurch von den reinen Kristallkontakten zu unterscheiden.
Wir beschreiben die Methode im Detail und demonstrieren, dass sie effektiv zwischen biologischen und Kristallkontakten unterscheidet. Damit leistet die Methode einen wichtigen Beitrag zur Interpretation von Proteinkristallstrukturen und ermöglicht Rückschlüsse auf die biologische Anordnung von Proteinen in ihrer natürlichen Zellumgebung.
Die Methode wurde zunächst für lösliche Proteine entwickelt. In einem zweiten Teil zeigen wir, wie sie sich auch auf membrangebundene Proteine anwenden lässt. Dazu war zunächst die Zusammenstellung eines verifizierten Datensatzes von transmembranen Protein-Protein-Kontakten notwendig. Dies ist zugleich der erste umfangreiche und öffentliche Datensatz von verifizierten Transmembrankontakten. Anhand dieser Daten zeigen wir Prinzipien der Komplexbildung in der Membranumgebung und wie sich diese von derer in löslicher Umgebung unterscheiden. Unsere Methode, genannt EPPIC, ist damit sowohl für lösliche als auch für Membranproteine anwendbar. Schließlich zeigen wir eine robuste Software- Implementierung der Methode sowohl als eigenständiges Programm als auch als web-basierter Online-Service, der somit der weltweiten Forschungsgemeinde zur Nutzung zur Verfügung steht.

Statistics

Downloads

7 downloads since deposited on 10 Apr 2019
3 downloads since 12 months
Detailed statistics

Additional indexing

Item Type:Dissertation (monographical)
Referees:Caflisch Amedeo, Capitani Guido
Communities & Collections:UZH Dissertations
Dewey Decimal Classification:Unspecified
Language:English
Place of Publication:Zürich
Date:2013
Deposited On:10 Apr 2019 13:14
Last Modified:07 Apr 2020 07:17
Number of Pages:135
OA Status:Green
Related URLs:https://www.recherche-portal.ch/primo-explore/fulldisplay?docid=ebi01_prod010074424&context=L&vid=ZAD&search_scope=default_scope&tab=default_tab&lang=de_DE (Library Catalogue)

Download

Green Open Access

Download PDF  'Protein interfaces in crystal structures: insights from evolution'.
Preview
Content: Published Version
Language: English
Filetype: PDF
Size: 5MB