Information

Wie kann man Protein-Protein-Interaktionen aus einem Paar von Gensymbolen vorhersagen?


Ich habe eine Liste von Paaren von Gensymbolen, die (mutmaßlich) interagieren und möchte jedem Paar einen Score zuweisen (und andere Details aufzeichnen), basierend auf der vorhergesagten Protein-Protein-Interaktion (PPI). Die vorhandenen PPI-Webserver, die ich mir angesehen habe (ClusPro und HADDOCK), erfordern, dass ich PDB-IDs als Eingabe verwende. Leider existieren PDB-IDs nicht immer für die Gensymbole, die ich vergleichen möchte. Ich glaube, ich brauche entweder:

  1. eine Möglichkeit, PDB-Dateien selbst zu generieren (vielleicht mit einem Faltprogramm?) und sie dann auf einen PPI-Webserver zu verbinden/hochzuladen.

oder

  1. eine Möglichkeit, die ähnlichste Sequenz mit einer PDB-ID zu finden und auf einen PPI-Webserver hochzuladen.

Verstehe ich mein Problem richtig? Gibt es Ressourcen, die bei 1 oder 2 helfen können?


Dies kann möglich sein oder auch nicht, je nachdem, welche Proteine ​​Sie in Betracht ziehen. Das Generieren einer PDB-Datei bedeutet, die Struktur des Proteins vorherzusagen. Es gibt keine Methoden, um die Proteinfaltung anhand einfacher Sequenzdaten genau vorherzusagen, daher benötigen Sie etwas experimentelle Daten über die Struktur Ihrer Proteine.

Wenn die Struktur Ihrer Proteine ​​nicht bestimmt wurde, ist das nächstbeste eine Art Homologiemodell, dh eine Vorhersage Ihrer Proteinstruktur basierend auf einer bekannten Struktur eines homologen Proteins. Diese können mehr oder weniger genau sein, je nachdem, wie nahe das homologe Protein ist. Wenn bestimmte Domänen interagieren, kann es ausreichen, nur ein Modell der Domäne zu erstellen.

Für die Homologiemodellierung stehen Online-Tools zur Verfügung, zum Beispiel swiss-model von der expasy-Site. Dies ist jedoch kein automatisierter Prozess --- das Erstellen eines genauen Modells erfordert einige Fähigkeiten. Lesen Sie die Veröffentlichungen, die diese Tools beschreiben, und vergewissern Sie sich, dass Sie den Prozess und die Fehlerquellen verstehen, und wenden Sie sich im Zweifelsfall möglicherweise an einen Experten. Viel Glück!


Grenzen in der Genetik

Die Zugehörigkeiten der Herausgeber und Gutachter sind die neuesten Angaben in ihren Loop-Forschungsprofilen und spiegeln möglicherweise nicht ihre Situation zum Zeitpunkt der Überprüfung wider.



TEILEN EIN

Chemische Werkzeuge zur Bildgebung, Manipulation und Verfolgung biologischer Systeme: Diverse Methoden für prokaryontische und eukaryontische Systeme

Katherine Charov , Michael D. Burkart , in Methoden der Enzymologie , 2020

Abstrakt

Protein-Protein-Interaktionen (PPIs) sind für das Leben universell und ihr Studium und ihr Verständnis sind für die Wirkstoffforschung und die Biotechnologie von entscheidender Bedeutung. In der Vergangenheit wurden Röntgenkristallographie, isotherme Titrationskalorimetrie und andere biophysikalische Methoden zur Untersuchung von PPIs verwendet, können jedoch kostspielig sein und einen geringen Durchsatz haben, was Fortschritte bei der schnellen Bewertung dieser Wechselwirkungen behindert. Das jüngste Interesse daran, auf PPIs abzuzielen und Biosynthesewege zu entwickeln, bei denen PPIs eine entscheidende Rolle spielen, hat Innovationen bei ihrer Bewertung vorangetrieben, aber ein universelles Screening wird noch benötigt. Eines der am besten charakterisierten Systeme, das auf PPIs basiert, ist Escherichia coli Typ-II-Fettsäurebiosynthese, bei der das zentrale Acyl-Carrier-Protein (EcACP) Substrate zu einer Reihe von Partnerenzymen transportiert. Hier stellen wir eine Methode vor, bei der EcACP mit einem solvatochromen Farbstoff, 4-DMN, markiert wird und dann mit seinen verschiedenen Partnerenzymen interagieren kann. Bei der Wechselwirkung kommt es zu einem starken Anstieg der Fluoreszenzintensität, der leicht über ein Fluorometer oder einen Plattenleser überwacht werden kann. Dieses Verfahren ist nützlich bei der Untersuchung von bekanntem PPI, hypothetischem PPI und bei der Bewertung von Inhibitoren sowohl des aktiven Zentrums des Partnerenzyms als auch des PPI selbst.


Proteininteraktionskarten für komplette Genome basierend auf Genfusionsereignissen

Ein groß angelegter Versuch, Protein-Protein-Wechselwirkungen mit experimentellen Methoden zu messen, nachzuweisen und zu analysieren, ist im Gange 1,2 . Dazu gehören Biochemie wie Co-Immunpräzipitation oder Crosslinking, Molekularbiologie wie das Zwei-Hybrid-System oder Phagen-Display und Genetik wie der Nachweis nicht verknüpfter nicht-komplementierender Mutanten 3 . Unter Verwendung des Zwei-Hybrid-Systems 4 wird international versucht, das komplette Hefegenom zu analysieren 5 . Alle diese Ansätze sind offensichtlich mühsam, arbeitsintensiv und ungenau 6 . Aus rechnerischer Sicht stellt sich die Frage, wie wir vorhersagen können, dass zwei Proteine ​​allein aufgrund ihrer Struktur oder Sequenz interagieren. Hier stellen wir eine Methode vor, die Genfusionsereignisse in vollständigen Genomen identifiziert, allein basierend auf Sequenzvergleichen. Da es im Laufe der Evolution einen Selektionsdruck geben muss, damit bestimmte Gene fusioniert werden, können wir funktionelle Assoziationen von Proteinen vorhersagen. Wir zeigen, dass 215 Gene oder Proteine ​​in den kompletten Genomen von Escherichia coli, Haemophilus influenzae und Methanococcus jannaschii sind an 64 einzigartigen Fusionsereignissen beteiligt. Der Ansatz ist allgemein und kann sogar auf Gene mit unbekannter Funktion angewendet werden.


Ergebnisse

Allgemeines Modell

Unser Verfahren arbeitet im Allgemeinen mit Sätzen von multiplen Alignments von homologen Proteinen (oder Proteindomänen), von denen bekannt ist, dass Mitglieder eines multiplen Alignments mit Mitgliedern eines anderen multiplen Alignments interagieren können. Um das Modell zu erklären, beschreiben wir es zunächst für den einfachsten Fall. In dieser in Abbildung 1 dargestellten Situation gibt es zwei (große) Familien von Proteinen oder Proteindomänen, typischerweise mit mehreren paralogen Mitgliedern pro Genom, von denen bekannt ist, dass in jedem Genom jedes Mitglied der ersten Familie mit einem Mitglied von . interagiert die zweite Familie. Die Menge aller möglichen „Lösungen“ für dieses Problem entspricht allen Möglichkeiten, wie wir für jedes Genom jedes Mitglied der ersten Familie einem Mitglied der zweiten Familie zuordnen können. In Abbildung 1 sind die Alignments der beiden Familien nebeneinander dargestellt, wobei die Sequenzen von oben nach unten nach Genom gruppiert sind. Eine Zuordnung von Interaktionspartnern ein entspricht einer vertikalen Reihenfolge der Sequenzen innerhalb jedes Genoms, so dass angenommen wird, dass die Sequenzen in derselben horizontalen „Reihe“ interagieren. Auf diese Weise eine Aufgabe ein impliziert ein gemeinsames multiples Alignment aller Sequenzen beider Familien.

Wir berechnen nun die Wahrscheinlichkeit P(Dein) die gesamte gemeinsame Mehrfachausrichtung zu beobachten D der Sequenzen beider Familien in der Zuordnung ein. Wir nehmen an, dass für jede Ausrichtungsposition ich, hängt die Wahrscheinlichkeit, die Aminosäure α an dieser Position zu beobachten, von der Aminosäure β ab, die an einer anderen Position vorkommt J=π(ich) (der „Elternteil“ von ich). Ein Abhängigkeitsbaum T (siehe Abbildung 1) spezifiziert die Elternposition π(ich) für jede Position ich in der gemeinsamen Mehrfachausrichtung. Die bedingten Wahrscheinlichkeiten P ij (α∣β) sind unbekannte Parameter, die aus dem Problem integriert werden. Wie in Materialien und Methoden gezeigt, können wir einen expliziten Ausdruck für die Wahrscheinlichkeit herleiten P(DichDJ) der gesamten Ausrichtungsspalte ich, gegebene Ausrichtungsspalte J in Bezug auf die Zählung nαβ ij die Häufigkeit, mit der das Aminosäurepaar (αβ) an den Alignment-Spalten beobachtet wird (ij). Die Wahrscheinlichkeit P(Dein, T) der Daten, gegebener Abhängigkeitsbaum T, ist dann das Produkt der bedingten Wahrscheinlichkeiten P(DichDπ(ich)) (siehe Abbildung 1) über alle Positionen. Der unbekannte Abhängigkeitsbaum T ist ein sogenannter „Störungsparameter“ und die Wahrscheinlichkeitstheorie spezifiziert ( Jaynes, 2003 ), dass P(Dein), sollten wir summieren P(Dein, T) über alle möglichen Abhängigkeitsbäume. Bei Verwendung eines einheitlichen Priors über Bäume ergibt dies eine Mittelwertbildung P(Dein, T) über alle Abhängigkeitsbäume ( Meilá und Jaakkola, 2006 ). In Fällen, in denen diese Summation rechnerisch schwer zu handhaben ist, können wir auch approximieren P(Dein) indem man den Abhängigkeitsbaum findet T * das maximiert P(Dein, T * ) (siehe Materialien und Methoden).

Wir proben die Posterior-Verteilung P(einD) über alle möglichen Zuordnungen ein Verwenden von Markov-Ketten-Monte-Carlo-Sampling und Verfolgen der Fraktion F(m, m′) von Probenzuweisungen, in denen Proteine m und m′ sind Interaktionspartner. Im Grenzbereich der langen Abtastung sind die Frequenzen F(m′, m) geben die a-posteriori-Wahrscheinlichkeiten an P(m, m′∣D), das m und m′ interagieren. Wie in Materialien und Methoden erläutert, kann dieser Ansatz auf verschiedene Weise erweitert werden, einschließlich der Zulassung von mehr als zwei paralogen Familien und der Berücksichtigung einer ungleichen Anzahl von Mitgliedern in den verschiedenen Familien. Diese Erweiterungen werden für unsere Vorhersagen von Zweikomponenten-Interaktionen unten verwendet.

Bewerbung bei TCS

Bakterielle TCS sind für den Großteil der Signaltransduktion verantwortlich, die dem komplexen bakteriellen Verhalten zugrunde liegt (Grebe und Stock, 1999 Stock et al, 2000 Ausmees und Jacobs-Wagner, 2003). Obwohl in einigen Modellorganismen viel über die TCS-Signalgebung für bestimmte Subsysteme bekannt ist, sind die Interaktionspartner für die allermeisten TCS-Gene experimentell nicht bestimmt worden. Umfassende Vorhersagen von TCS-Signalisierungsinteraktionen würden daher wichtige Erkenntnisse darüber liefern, wie verschiedene Bakterien auf ihre Umgebung reagieren, welche Regulone unter der Kontrolle welcher externen Signale stehen und welche spezifischen Subsysteme durch Signalwege verbunden sind, mit potenziell wichtigen Anwendungen. Da beispielsweise die TCS-Signalgebung für die Wirt-Pathogen-Interaktion essentiell ist, können Erkenntnisse über diese Interaktionen wichtige Anwendungen im Zusammenhang mit der menschlichen Gesundheit haben. Darüber hinaus ist derzeit nur sehr wenig über die globale Struktur von TCS-Signalnetzwerken bei Bakterien bekannt. Mit etwa 400 verfügbaren vollständig sequenzierten Genomen würde eine umfassende Vorhersage von TCS-Signalnetzwerken über alle Bakterien somit auch einen signifikanten Datensatz für die Untersuchung der globalen Struktur von Signalnetzwerken in Bakterien liefern.

In seiner einfachsten Form besteht ein TCS aus zwei Proteinen, einer Histidinkinase und einem Reaktionsregulator ( Stock et al, 2000). Die Histidinkinase ist in vielen Fällen ein membrangebundenes Protein mit einer extrazellulären Sensordomäne, die auf Umweltreize reagiert, und einer zytoplasmatischen Kinasedomäne. Die Kinasedomäne autophosphoryliert bei Aktivierung des Sensors, interagiert sehr spezifisch mit dem Reaktionsregulator und überträgt das Phosphat auf die Empfängerdomäne des Regulators. Die Phosphorylierung führt typischerweise zur Aktivierung des Regulators, der oft als Transkriptionsfaktor fungiert.

Aus mehreren Gründen sind TCSs für die computergestützte Modellierung besonders attraktiv. Erstens weisen sowohl Histidinkinase- als auch Empfängerdomänen eine signifikante Sequenzähnlichkeit auf und können in vollständig sequenzierten Genomen mit Hidden-Markov-Modellen leicht nachgewiesen werden (Bateman et al, 2004). Zweitens, da TCSs im prokaryotischen Reich sehr häufig vorkommen, mit Dutzenden von interagierenden Paaren in einigen Genomen und Tausenden von Beispielen in allen Genomen, liefern sie genügend Daten, um subtile Abhängigkeiten zwischen den Resten der interagierenden Kinase/Empfänger-Domänen zu erkennen. Schließlich bildet ein signifikanter Anteil aller TCS sogenannte cognate Paare, bei denen ein einzelnes Kinase/Regulator-Paar innerhalb eines Operons im Genom liegt. Es wird allgemein angenommen, dass es sich bei solchen verwandten Paaren um wechselwirkende Kinase/Regulator-Paare handelt, was experimentell für eine beträchtliche Anzahl von Paaren bestätigt wurde, und unseres Wissens gibt es keine Beispiele, die dieser Annahme widersprechen. Daher liefern die verwandten Paare einen sehr großen Datensatz bekannter interagierender Paare, der verwendet werden kann, um die Genauigkeit der rechnerischen Vorhersagen zu testen. Darüber hinaus können sie als „Trainingsset“ verwendet werden, um Interaktionen zwischen allen anderen Kinasen und Regulatoren vorherzusagen, d. h. zwischen „orphan“-Kinasen und Regulatoren, die nicht innerhalb eines Operons mit ihrem Interaktionspartner auftreten.

Wir haben eine umfassende Sammlung von TCS-Proteinen aus 399 sequenzierten Bakterien gesammelt und alle Kinase- und Empfängerdomänen mehrfach ausgerichtet. Während alle Empfängerdomänen in einem einzigen Alignment ausgerichtet werden können, zeigen Kinasen unterschiedliche Domänenarchitekturen und wir haben sieben separate multiple Alignments für die sieben häufigsten Kinasedomänenarchitekturen hergestellt (siehe Materialien und Methoden). Wir haben auch die Kinasen und Regulatoren in verwandte Paare und Waisen unterteilt.

Bestimmung wechselwirkender Reste

Die HisKA-Klasse ist mit 3388 verwandten HisKA/Regulator-Paaren, was 72 % aller verwandten Paare entspricht, bei weitem die größte Klasse von Kinasen dieser Klasse. Für jedes Positionspaar (ij), wo ich liegt in der Kinase und J im Empfänger quantifizierten wir die ‚Abhängigkeit‘ durch das Likelihood-Verhältnis Rij zwischen einem Modell, das davon ausgeht, dass die Aminosäuren an diesen Positionen aus einer gemeinsamen Wahrscheinlichkeitsverteilung stammen, und einem Modell, das davon ausgeht, dass sie aus unabhängigen Verteilungen stammen (siehe Materialien und Methoden). Diese Maßnahme Rij für Abhängigkeit zwischen Positionen ich und J steht in engem Zusammenhang mit der gegenseitigen Information der beobachteten Verteilung der Aminosäuren in den Positionen ich und J, was wiederum mit der statistischen Kopplung zwischen Positionen zusammenhängt, die in (Lockless und Ranganathan, 1999) eingeführt wurde. Wie in Abbildung 2 oben links gezeigt, haben fast 15 % aller Positionspaare einen positiven Log (Rij), was über 1000 Paaren entspricht. Da unser Datensatz jedoch viele Beispiele für orthologe verwandte Paare enthält, erwarten wir „falsche“ Korrelationen, die nur das Ergebnis der evolutionären Beziehungen zwischen orthologen Paaren sind. Um zu untersuchen, ob der hohe beobachtete log(Rij)-Werte allein durch die Phylogenie erklärt werden können, haben wir die folgende Randomisierung durchgeführt. Wir sammelten Sätze orthologer verwandter Paare in orthologen Gruppen und identifizierten Paare orthologer Gruppen, die in den gleichen Genomen vorkommen. Wir tauschten dann Kinase/Regulator-Zuordnungen zwischen solchen Paaren orthologer Gruppen aus. Somit wird nun jede Kinase einer falschen Empfängerdomäne zugeordnet, aber die phylogenetischen Beziehungen all dieser „falschen Paare“ sind genau die gleichen wie die phylogenetischen Beziehungen der echten verwandten Paare. Wenn alle Korrelationen auf die Phylogenie zurückzuführen wären, wäre die Verteilung der beobachteten Rij Die Werte für die falschen Paare sollten mit denen der echten Paare übereinstimmen. Wie das obere linke Feld von Abbildung 2 zeigt, ist die beobachtete Rij Werte für echte Paare sind viel größer, als durch die Phylogenie erklärt werden kann. Zum Beispiel zeigen nur etwa 7% der falschen Paare einen positiven log(Rij) und es gibt keine falschen Paare mit log(Rij) größer als 235.

Wenn die Positionspaare mit großen Rij Werte physikalisch-chemische Beschränkungen widerspiegeln, können wir erwarten, dass sie während der Wechselwirkung von Kinase und Empfänger in engem physikalischen Kontakt stehen. Obwohl derzeit keine Struktur eines HisKA-Kinase/Regulator-Paares verfügbar ist, ist die Struktur der Sporulation Histidinphosphotransferase Spo0B mit dem Reaktionsregulator Spo0F ( Zapf et al, 2000 ) wurde ermittelt. Spo0B unterscheidet sich in der Sequenz signifikant von HisKA-Kinasen, kann aber dennoch einigermaßen an das HisKA-Pfam-Profil angeglichen werden. Wir verwendeten die Spo0B/Spo0F-Struktur zusammen mit dem Spo0B/HisKA-Alignment, um die physikalischen Abstände zwischen allen Positionspaaren in HisKA-Kinase/Empfänger-Paaren abzuschätzen. Das obere rechte Feld von Abbildung 2 zeigt, dass die Positionspaare mit dem höchsten Rij sind physisch deutlich näher als andere Paare (Rangsummentest P-Wert 3 × 10 -11 ). Darüber hinaus zeigt Abbildung 3 die Aminosäurepaare mit den höchsten Rij Werte auf dem Spo0B/Spo0F-Komplex (schwarze Linien). Auffallend ist, dass viele der vorhergesagten voneinander abhängigen Positionen tatsächlich in engem physikalischen Kontakt in den α-Helices der Kinase- und Empfängerdomäne stehen (rechts oben in der Abbildung). Es wird vorhergesagt, dass andere Interaktionen zwischen Resten in einer α-Helix der Kinasedomäne und Resten in Schleifen der Empfängerdomäne auftreten. Einige der vorhergesagten Wechselwirkungen sind rätselhafter: Sie beinhalten Reste nicht in unmittelbarer Nähe, aber die Rij Die Werte sind zu hoch, um durch phylogenetische Abhängigkeiten erklärt zu werden. Einige davon können auf strukturelle Unterschiede zwischen dem Spo0B/Spo0F-Komplex und dem HisKA/Empfänger-Komplex, auf Ausrichtungsfehler oder indirekte Abhängigkeiten zurückzuführen sein. Zusammenfassend lässt sich sagen, dass die Kontrolle für das phylogenetische Signal die Abstände zwischen Paaren mit hohem Rij, und ihre Position in einer verwandten Struktur unterstützen alle, dass unsere Rij Scores erfassen sinnvolle funktionelle Abhängigkeiten zwischen einzelnen Positionspaaren in Kinase und Empfänger.

Vorhersage verwandter Interaktionen

Als nächstes untersuchten wir, wie genau das Modell bekannte verwandte Paare von HisKA-Kinasen und deren Regulatoren rekonstruieren kann. Wir sammelten die multiplen Alignments aller HisKA-Kinase-Domänen und Empfängerdomänen von verwandten Paaren und untersuchten den Raum aller möglichen Zuordnungen, dh alle Arten, wie jede Kinase aus jedem Genom einem Regulator aus demselben Genom zugeordnet werden kann. Wir haben alle vorhergesagten Paare nach ihrer a-posteriori-Wahrscheinlichkeit sortiert und als Funktion eines Cut-offs der a-posteriori-Wahrscheinlichkeit den Anteil aller echten kognaten Paare, die zu den Vorhersagen gehören (Sensitivität) und den Anteil aller Vorhersagen, die der wahren kognaten entsprechen, gemessen Paare (positiver Vorhersagewert). Diese Ergebnisse sind im unteren linken Feld von Abbildung 2 dargestellt, beide als Näherung P(Dein) unter Verwendung des Baums mit der höchsten Wahrscheinlichkeit, d. h. P(Dein)=maxT P(Dein, T) (blaue Kurven) und bei Mittelung über alle Abhängigkeitsbäume P(Dein)=∑T P(Dein, T) (rote Kurven). Beim ersten Ansatz wird die Abhängigkeitsbaumstruktur aus den korrekt gepaarten verwandten Paaren vor dem Sampling berechnet, während beim zweiten Ansatz überhaupt kein Trainingssatz verwendet wird. Bei beiden Ansätzen werden die verwandten Paare mit hoher Genauigkeit rekonstruiert, aber die Mittelung über Abhängigkeitsbäume schneidet eindeutig am besten ab. Dies ist nicht überraschend, da, wie oben erwähnt, die Mittelung über Abhängigkeitsbäume die richtige Methode zur Behandlung des Störparameters ist T. Nur der beste Baum zu verwenden, kann zu einer Überanpassung führen.

Bei 60 % Sensitivität entsprechen mehr als 95 % (rote Kurven) der Vorhersagen echten Paaren. Bei einer Sensitivität von 75 % liegt der Anteil der Vorhersagen, die echte Paare sind, immer noch über 80 % (rote Kurven). Diese hohe Genauigkeit ist sehr auffällig, insbesondere wenn man bedenkt, dass dem Algorithmus kein einziges Beispiel für ein echtes wechselwirkendes Paar gegeben wird, sondern alle verwandten Paare in allen Genomen parallel durch die Suche nach Zuordnungen abgeleitet werden, die die beobachtete Abhängigkeit zwischen Kinase und maximieren Empfängersequenzen. Wir sagten auch Interaktionspartner für alle verwandten Kinasen und Regulatoren der H3-Klasse voraus, die die zweithäufigste Klasse ist (Abbildung 2, untere rechte Abbildung). Im Gegensatz zur HisKA-Klasse gibt es für die H3-Klasse eine signifikante Anzahl von Genomen mit nur wenigen H3-verwandten Paaren, für die selbst zufällige Vorhersagen einen vernünftigen Anteil an korrekten Vorhersagen ergeben würden (grüne Kurven). Es ist jedoch immer noch klar, dass unser Modell die verwandten Paare mit hoher Genauigkeit rekonstruiert, d. h. bei einer Sensitivität von 80% entsprechen mehr als 95% der Vorhersagen (rote Kurven) echten Paaren. In den ergänzenden Informationen zeigen wir analoge Kurven für die anderen (kleineren) Kinasenklassen, die alle eine hohe Genauigkeit der Vorhersagen aufweisen, was veranschaulichen, dass das Modell bei relativ kleinen Datensätzen eine hohe Genauigkeit erreichen kann. Da es andererseits für diese kleineren Kinaseklassen oft nur wenige verwandte Paare pro Genom gibt, ist das Vorhersageproblem natürlich deutlich einfacher. Zusammenfassend legen die Ergebnisse zu verwandten Paaren nahe, dass unser Algorithmus zumindest für verwandte Kinasen und Regulatoren auf Interaktionspartner schließen kann von Anfang an mit hoher Genauigkeit.

Vorhersage von verwaisten Interaktionen

Wir sind natürlich am meisten daran interessiert, die derzeit nicht bekannten Teile bakterieller Zweikomponenten-Signalnetzwerke zu rekonstruieren, also Interaktionspartner für die Tausenden von Orphan-Kinasen und Regulatoren vorherzusagen. Die Vorhersage von Orphan-Interaktionen ist aus zwei Gründen schwieriger. Obwohl für verwandte Paare die Annahme, dass jede Kinase und jeder Regulator hauptsächlich mit einem Partner interagiert, wahrscheinlich nicht unvernünftig ist, ist dies für verwaiste Kinasen und Regulatoren weniger wahrscheinlich. Viele Genome enthalten ungleich viele Kinasen und Regulatoren, was darauf hindeutet, dass zumindest einige mit mehreren Partnern interagieren müssen. Zweitens enthält ein bestimmtes Bakterium typischerweise Orphan-Kinasen aus mehreren Klassen, und wir müssen daher auch folgern, zu welcher Kinase-Klasse jeder der Orphan-Regulatoren gehört.

Um verwaiste Interaktionen vorherzusagen, haben wir unser Modell auf verschiedene Weise erweitert. Zuerst behandeln wir die mehreren Klassen von Kinasen parallel. Um zweitens eine ungleiche Anzahl von Orphan-Kinasen und Orphan-Regulatoren zu berücksichtigen, können einige Kinasen und/oder Regulatoren für eine bestimmte Aufgabe ohne Interaktionspartner bleiben und diese werden separat bewertet (siehe Materialien und Methoden). Schließlich fügen wir alle verwandten Paare zu den Alignments jeder Klasse hinzu, wobei die Interaktionspartner korrekt zugewiesen sind, und halten diese verwandten Paare fest. Auf diese Weise fungieren die „eingefrorenen“ verwandten Paare als Trainingsset für die verwaisten Aufgaben. Der Algorithmus verwendet wiederum die Markov-Kette Monte-Carlo, um alle Arten der Zuordnung von verwaisten Empfängern zu Klassen und alle Arten der Zuordnung verwaister Interaktionspartner in jeder Klasse abzutasten. Aufgrund numerischer Schwierigkeiten bei der Erweiterung unseres Modells auf mehrere Klassen (siehe Materialien und Methoden) können wir die Summe über alle Abhängigkeitsbäume nicht mit ausreichender Genauigkeit berechnen. Daher verwenden wir die verwandten Paare, um den besten Abhängigkeitsbaum zu bestimmen und zu approximieren P(Dein) mit maxT P(Dein, T).

Um die Leistung dieses erweiterten Modells zu vergleichen, haben wir es zuerst verwendet, um Interaktionspartner für alle verwandten Kinasen und Empfänger vorherzusagen, die auf allen sieben Klassen parallel laufen. Da jeder verwandte Regulator nun dynamisch zwischen allen sieben Kinasenklassen wechseln kann, ist der Suchraum des erweiterten Modells viel größer als bei der separaten Behandlung jeder Klasse, und wir erwarten, dass sich dies negativ auf die Leistung auswirkt. Wie in den ergänzenden Informationen gezeigt, bleiben unsere Vorhersagen dennoch ziemlich genau. Beachten Sie auch, dass bei kleinen Klassen, wie der HWE-Klasse, oft nur eine Kinase pro Genom vorhanden ist und eine korrekte Vorhersage auf die Identifizierung des zur HWE-Klasse gehörenden Regulators hinausläuft, was das erweiterte Modell mit hoher Genauigkeit erreicht.

Mit unserem erweiterten Modell haben wir dann in allen 399 Bakterien genomweit Orphan-Interaktionspartner vorhergesagt. Derzeit sind nur sehr wenige Orphan-Interaktionen experimentell gemessen worden. Für die Interaktionspartner der HisKA-Orphan-Kinasen liegt das mit Abstand umfangreichste Wissen vor Caulobacter crescentus ( Wu et al, 1999 Ohta und Newton, 2003 Skerker et al, 2005 Biondi et al, 2006). Tabelle I vergleicht unsere Vorhersagen für verwaiste Interaktionen in Kaulobacter mit denen in der Literatur.

Auffallend ist, dass für 10 der 11 Kinasen mit bekannten Interaktionspartnern die oberste Berechnungsvorhersage einer bekannten Interaktion entspricht. Tatsächlich stimmen von den 22 Vorhersagen in der Tabelle, die alle 16 bekannten Wechselwirkungen für diese Kinasen enthält, nur fünf mit den aktuellen experimentellen Daten überein. Da es 29 verschiedene Orphan-Regulatoren gibt Kaulobacter, d.h. es gibt 29 Interaktionskandidaten für jede Kinase, dies ist ein hochsignifikanter Beweis dafür, dass unsere Methode Orphan-Interaktionspartner genau vorhersagt (P-Wert von 7,5 × 10 –18 siehe Ergänzende Informationen). In den ergänzenden Informationen vergleichen wir auch unsere Vorhersagen für Orphans mit den wenigen experimentell ermittelten Orphan-Interaktionen in Helicobacter pylori, Bacillus subtilis, und Ehrlichia chaffeensis.

Vorhersage von Wechselwirkungen zwischen PKSs

PKSs sind eine Familie bakterieller Proteine ​​mit außergewöhnlichen biosynthetischen Fähigkeiten. Abhängig von sehr spezifischen Protein-Protein-Wechselwirkungen bilden sie Multiproteinketten, in denen die Reihenfolge der PKS-Proteine ​​die Reihenfolge der Monomere des synthetisierten Polyketidprodukts bestimmt. PKSs sind von besonderem Interesse, da sie durch Gentechnik neuer PKS-Ketten potenziell verwendet werden können, um eine kombinatorische Biochemie im Labor zu erreichen (Weisman und Leadlay, 2005).

Es wird angenommen, dass die Spezifität der PKS-Wechselwirkung durch eine kleine Anzahl von Resten im Kopf (N-terminal) und Schwanz (C-terminal) bestimmt wird. Hier konzentrieren wir uns auf einen Datensatz von 149 interagierenden Kopf-Schwanz-Paaren, der erst kürzlich veröffentlicht wurde ( Thattai et al, 2007). Die Analyse dieses Datensatzes hat gezeigt ( Thattai et al, 2007 ), dass sowohl Kopf- als auch Schwanzsequenzen phylogenetisch in drei Gruppen (H1 bis H3 und T1 bis T3) gruppiert werden können und dass interagierende Paare nur zwischen Proteinen aus entsprechenden Gruppen auftreten. Die Gruppenmitgliedschaft kann daher verwendet werden, um vorherzusagen, welche Kopf- und Schwanzpaare wahrscheinlich interagieren.

Wir wenden unsere Methode unverändert (d. h. wie im Abschnitt Allgemeines Modell beschrieben) auf den oben genannten Datensatz an. Das heißt, wir betrachten Köpfe und Schwänze als die Proteinfamilien 1 und 2 (siehe Abbildung 1) und probieren alle möglichen Arten aus, um jeden Kopf genau einem Schwanz innerhalb desselben Genoms zuzuordnen. Dies impliziert, dass Köpfe von PKSs innerhalb eines Weges mit Schwänzen von PKSs eines anderen Weges interagieren dürfen, solange sie zum gleichen Genom gehören, was ein schwierigeres und wahrscheinlich biologisch relevanteres Problem ist als das in ( Thattai . betrachtete). et al, 2007). Die Ergebnisse sind im linken Bereich von Abbildung 4 dargestellt. Die rote Kurve zeigt die Leistung unseres Modells, bei dem die Wahrscheinlichkeit der Daten über alle möglichen Abhängigkeitsbäume gemittelt wird, die blaue Kurve zeigt die Leistung eines Klassifikationsmodells, das nur berücksichtigen die phylogenetischen Gruppeninformationen der Sequenzen (siehe Ergänzende Informationen), und die grüne Kurve zeigt die Leistung zufälliger Vorhersagen. Beachten Sie, dass unser Modell, obwohl es keine vorherigen Informationen über die phylogenetische Gruppierung von Kopf und Schwanz berücksichtigt, das in ( Thattai et al, 2007 ).

Thattai et al (2007) haben gezeigt, dass es innerhalb der größten Gruppe wechselwirkender Kopf-Schwanz-Paare (der H1-T1-Gruppe mit 90 Paaren) eine Reihe von Aminosäurerestpaaren gibt, die in der NMR-Struktur eines wechselwirkenden Kopf-Schwanz- Paar und zeigen signifikante Hinweise auf Koevolution. Versuche von Thattai et al (2007), diese Positionspaare zu verwenden, um Interaktionen innerhalb der H1-T1-Unterklasse vorherzusagen, ergab Ergebnisse, die nur geringfügig besser waren als zufällig. Im Gegensatz dazu zeigt unser Modell, wie im rechten Feld von Abbildung 4 gezeigt, eine hervorragende Vorhersagegenauigkeit für die Unterklasse H1–T1. Dies zeigt, dass unser Modell zumindest für einige Proteinfamilien genaue Vorhersagen auf Datensätze mit weniger als 100 Sequenzen erhält.

Die Struktur von Zweikomponenten-Signalnetzwerken in Bakterien

Unsere genomweiten Vorhersagen von TCS-Signalisierungsinteraktionen ermöglichen es uns zum ersten Mal, die Struktur von TCS-Signalnetzwerken über Bakterien hinweg zu untersuchen und zu vergleichen. In unseren oben genannten verwandten Vorhersagen gingen wir jedoch davon aus, dass jedes verwandte nur mit einem anderen verwandten interagiert, und die Vorhersagen für Waisen gingen auch davon aus, dass Waisen nur miteinander interagieren. Um sicherzustellen, dass die Netzwerkvorhersagen so umfassend und unvoreingenommen wie möglich sind, haben wir, wie in den Materialien und Methoden erläutert, ein statisches Bewertungsschema verwendet, das Verwandte und Waisen gleich behandelt (was Interaktionen zwischen Waisen und Verwandten ermöglicht) und eine beliebige Anzahl von Interaktionen zulässt Partner pro Protein.

Bevor wir die vorhergesagten Interaktionen untersuchten, untersuchten wir zunächst, wie sich die Anzahl der TCS-Gene unterschiedlicher Typen zwischen den Genomen unterscheidet. Wie van Nimwegen (2003) gezeigt hat, variiert die Gesamtzahl der TCS-Gene zwischen Bakterien signifikant und skaliert ungefähr im Quadrat der Anzahl der Gene im Genom, d TCS-Gene vervierfachen sich ungefähr. Abbildung 5 zeigt die Gesamtzahl der verwandten und verwaisten Genome (linkes Feld) und die Anzahl der verwaisten Kinasen und Orphan-Empfänger (rechtes Feld). Es gibt eine bemerkenswert große Variation in der relativen Zahl von Waisen und Verwandten, das heißt, es gibt Beispiele für Genome mit Dutzenden von verwandten Paaren ohne irgendwelche Waisen und umgekehrt Genome, die Dutzende von Waisen und keine Verwandten haben. Außerdem scheint es eine geringe Korrelation zwischen der Zahl der Verwandten und der Zahl der Waisen zu geben. Wir finden auch keine erkennbare Korrelation zwischen der Anzahl von Orphan-Kinasen und der Anzahl von verwandten Regulatoren oder der Anzahl von Orphan-Regulatoren und verwandten Kinasen (Daten nicht gezeigt). Im Gegensatz dazu, wie bereits erwähnt ( Alm et al, 2006 ) besteht eine klare Korrelation zwischen der Anzahl der Orphan-Kinasen und der Anzahl der Orphan-Regulatoren in einem Genom (rechtes Feld in Abbildung 5). Diese Statistiken geben einen ersten Hinweis darauf, dass Orphan-Kinasen und Orphan-Regulatoren eher miteinander als mit verwandten interagieren könnten.

Um dies weiter zu untersuchen, haben wir analysiert, wie die Gesamtzahl der vorhergesagten Interaktionen von der Anzahl der TCS-Gene unterschiedlicher Art abhängt. Wir unterscheiden vier Arten von Interaktionen: verwandte Interaktionen zwischen verwandten Kinasen und verwandten Empfängern, Orphan-Orphan-Wechselwirkungen zwischen Orphan-Kinasen und Orphan-Receivern, Cognate-Orphan-Wechselwirkungen zwischen verwandten Kinasen und Orphan-Receivern und Orphan-Cognate-Wechselwirkungen zwischen Orphan-Kinasen und verwandten Empfänger. Für ein Genom mit C verwandte Paare, K verwaiste Kinasen und R verwaiste Empfänger gibt es jeweils T=C 2 verwandt–verwandt, T=KR Waise – Waise, T=CR verwandt – Waise, und T=KC verwaiste Wechselwirkungen möglich. Für jedes Genom haben wir die Fraktionen bestimmt Fcc, Foo, Fco, und Fok aller möglichen Interaktionen in jeder Klasse, die vorhergesagt werden. Für jede Kategorie haben wir die Genome nach der Gesamtzahl der Interaktionen sortiert T dieser Kategorie, und durch Berechnung laufender Durchschnitte der Fraktionen (siehe Materialien und Methoden) haben wir die Abhängigkeit der Fraktionen bestimmt Fcc, Foo, Fco, und Fok über die Gesamtzahl der möglichen Interaktionen T (Abbildung 6). Wenn jede mögliche Interaktion eine konstante Wahrscheinlichkeit hätte, vorhergesagt zu werden, dann wäre der beobachtete Anteil der Interaktionen unabhängig von der Gesamtzahl der möglichen Interaktionen T. Im Gegensatz dazu ist in Abbildung 6 gezeigt, dass alle Brüche als Funktion der Gesamtzahl der möglichen Wechselwirkungen abnehmen T. In vernünftiger Näherung fallen alle vier Brüche als Potenzgesetz der Gesamtzahl der möglichen Wechselwirkungen T, mit Exponenten −0.4 für verwandte-verwaiste und verwaiste-verwaiste Wechselwirkungen und −0.55 für verwandte-verwaiste und verwaiste-verwandte Wechselwirkungen.

Um die Konsequenzen dieser Skalierung für die TCS-Netzwerkstruktur als Funktion der Genomgröße zu untersuchen, konzentrieren wir uns zunächst auf verwandte Wechselwirkungen. Für ein Genom mit n verwandte Paare gibt es T=n 2 mögliche Wechselwirkungen, davon ein Bruchteil T −0,4 existiert. Die Gesamtzahl der verwandten–verwandten Kanten skaliert somit als T 0.6 =n 1.2 . Das heißt, wenn die Anzahl verwandter Paare zunimmt, wächst die Gesamtzahl der Interaktionen zwischen verwandten Paaren etwas schneller als linear. Dies impliziert, dass, obwohl die Gesamtmenge an Nebensprechen zwischen verwandten Paaren klein ist, die Menge an Nebensprechen mit der Anzahl der verwandten Paare wächst. Insbesondere wächst die durchschnittliche Zahl der Interaktionspartner pro verwandtem Gen, n 0,2 . Um eine Vorstellung von der Größenordnung zu geben, sagt der Potenzgesetz-Fit für ein Genom mit vier verwandten Paaren insgesamt 3,5 Interaktionen voraus, dh im Wesentlichen eine Interaktion pro Gen. Für ein Genom mit 40 verwandten Paaren werden insgesamt 56 verwandte Wechselwirkungen vorhergesagt, was zusätzlich zu den 40 verwandten Wechselwirkungen 16 Crosstalks bedeutet. Für Waisen-Waisen-Interaktionen sind die Zahlen sehr ähnlich.

The power-law fits show that the fractions of cognate–orphan and orphan–cognate interactions decrease even faster with T. Consider for simplicity genomes with n cognate pairs, n orphan kinases, and n receivers. The total number of cognate–orphan and orphan–cognate interactions grows as n 0.9 in such genomes. Since this is slower than linear, it in particular implies that the average number of cognate–orphan and orphan–cognate interactions per gene decreases as n −0.1 . Apart from decreasing more rapidly with n, it is also shown in Figure 6 that cognate–orphan and orphan–cognate interactions are much less frequent than cognate–cognate and orphan–orphan interactions.

In summary, all our observations support the idea that orphans and cognates form two relatively separate TCS-signaling networks, that is, cognate–orphan and orphan–cognate interactions are relatively rare, and whereas the number of orphan–orphan and cognate–cognate cross-talks per gene increases with increasing network size, the number of cognate–orphan and orphan–cognate interactions per gene decreases with network size. As we saw above (Figure 5), this idea is also supported by the correlation in the number of orphan kinases and orphan receivers, and the absence of correlations between the numbers of cognates and numbers of orphans.

To provide additional evidence that orphans and cognates form relatively separate TCS-signaling networks, we mapped orthology relations of cognates and orphans across the 399 sequenced genomes (see Materials and methods Supplementary information). We find that, whenever both genes of a cognate pair have orthologs in another genome, the two orthologs are also a cognate pair in this genome 99.1% of the time. In 0.6% of the cases, the orthologs of the cognate pair are both orphans, and in the remaining 0.3% of the cases one ortholog is a cognate and the other an orphan. In cases where only the kinase of the cognate pair has an ortholog, the orthologous kinase is a cognate 79% of the time. Similarly, if only the receiver of the cognate pair has an ortholog, then this orthologous receiver is a cognate 78% of the time. Finally, orthologs of orphan kinases are orphans 86% of the time, and orthologs of orphan receivers are orphans 80% of the time. Thus, although both cognate and orphan TCS genes undoubtedly share a common phylogenetic ancestry, our results intriguingly suggest that on shorter evolutionary time scales orphans and cognates evolve relatively separately from each other, and support our finding that the orphans and cognates form two relatively separate interaction networks.

To shed some light on the difference between orphans and cognates, we determined the connectivity, that is, the number of predicted interaction partners, for each TCS protein, and calculated the distribution of connectivities separately for all orphans and all cognates. Figure 7 shows the reverse cumulative distribution of kinases (left panel) and regulators (right panel). The figure shows striking differences between the connectivity distributions of cognates (red) and orphans (blue). First, for both kinases and regulators, the reverse cumulative distribution initially falls rapidly and roughly exponentially. In this regime, which includes roughly 90% of all genes, the connectivity distributions of cognates and orphans are very similar, although there are slightly more cognates with at least one predicted interaction partner than orphans. However, for the remaining 10% of genes the connectivity distributions of cognates and orphans are very different. In particular, there is a much larger number of orphans with high connectivity. For all four curves, but especially clearly for the orphans, there are two regimes in the distribution: one corresponding to relatively low-connectivity genes, which includes about 90% of all genes, and a second regime of high-connectivity genes, which covers the remaining 10%. It thus appears that, to a rough approximation, there are two types of TCS genes. Most kinases and regulators interact with only a few (less than five) partners, but about 10% interact with a large number of partners. The kinases in this class thus distribute a signal to a large number of downstream regulators, and the regulators in this class integrate a large number of input signals. Most of these ‘hub’ kinases and regulators are orphans.


Einführung

With the overwhelming amount and exponential increase of biomedical literature, it is almost impossible for biologists to keep abreast of all the updated information in their research fields. Therefore, knowledge-based methods such as text mining techniques to discover hidden and updated knowledge from the unstructured free text are in great need [1]–[3]. One of the most important applications is mining correlations or associations such as protein-protein interactions (PPIs) from the literature [4], [5]. Plenty of PPI text mining approaches have been categorized into two groups, one is statistical calculation of the co-occurrence of genes or proteins, and the other is the computational linguistic method [2], [4].

Statistical methods are based on the hypothesis that if two genes or proteins appeared in the same sentences, paragraphs or articles frequently, there may exist certain kind of biologically meaningful relation between them [2]. Thus, the relations between genes or proteins could be uncovered by calculating their co-occurrence frequencies. In general, the higher the frequencies are, the more likely the interactions are. On the other hand, computational linguistic methods employ natural language processing (NLP) techniques to analyze the semantic meanings of relations (e.g. interaction) between genes or proteins. It first identifies gene or protein names in the sentences. Then it parses the sentences by employing the part-of-speech (POS) tagging. Based on the generated POS tags, a set of predefined protein-protein interaction patterns or rules are applied to extract the protein-protein interaction descriptions [4].

However, the two approaches both have limitations. A drawback of the statistical methods is its inability to tell the exact relations of the genes in co-occurrence. The computational linguistic methods that use one sentence as a processing unit might miss the contextual information [4]. Thus, a hybrid approach by combining the two methods that is termed as a frame-based approach has been developed to have better performance [2].

Biologists may have more interests in the predicted novel PPIs from these text-mining tools. It will be more straightforward to identify potential novel PPIs when the known PPIs are filtered in these algorithms. However, few algorithms have implemented this feature [3]. In this study, we developed a novel algorithm by a frame-based approach for a web-based tool, PPI Finder, which can not only find the related genes of the gene of interest based on their co-occurrence frequencies but also extract the semantic descriptions of interactions from the co-occurring literature by computational linguistic methods. In addition, we map the known interactions from the widely-used PPI databases to filter the known interactions. We also show the shared GO terms from the Gene Ontology database, in order to infer potential PPIs based on their functions in the same process or localization. This dedicated web server is helpful to the users to find both known and potential novel PPIs from literature.


Verweise

Mellitus D. Diagnosis and classification of diabetes mellitus. Diabetes care. 2005 28(S37):S5–S10.

Davies JL, Kawaguchi Y, Bennett ST, et al. A genome-wide search for human type 1 diabetes susceptibility genes. Natur. 1994 371(6493):130–6.

Butler AE, Bonner-Weir S, et al. Janson, J. Diabetes. 2003 52(1):102–10.

Buchanan TA, Xiang AH. Gestational diabetes mellitus. J Clin Invest. 2005 115(3):485–91.

Marx J. Unraveling the causes of diabetes. Wissenschaft. 2002 296(5568):686.

Notkins AL. The causes of diabetes. Sci Am. 1979 241(5):62.

Loeken MR. Advances in understanding the molecular causes of diabetes-induced birth defects. J Soc Gynecologic Invest. 2006 13(1):2–10.

Nguyen C, Varney MD, Harrison LC, et al. Definition of high-risk type 1 diabetes HLA-DR and HLA-DQ types using only three single nucleotide polymorphisms. Diabetes. 2013 62(6):2135–40.

Hu X, Deutsch AJ, Lenz TL, et al. Additive and interaction effects at three amino acid positions in HLA-DQ and HLA-DR molecules drive type 1 diabetes risk. Nat Genet. 2015 47(8):898–905.

Chen LM. Association of the HLA-DQA1 and HLA-DQB1 Alleles in Type 2 Diabetes Mellitus and Diabetic Nephropathy in the Han Ethnicity of China. Exp Diabetes Res. 2013 2013:1–5.

Glazier AM, Nadeau JH, Aitman TJ. Finding Genes That Underlie Complex Traits. Wissenschaft. 2002 298(5602):2345–9.

Lage K, Karlberg E, et al. A human phenome-interactome network of protein complexes implicated in genetic disorders. Nat Bio. 2007 25(3):309–16.

Aerts S, Lambrechts D, et al. Gene prioritization through genomic data fusion. Nat Biotech. 2006 24(5):537–44.

Adie E, Adams R, et al. SUSPECTS:enabling fast and effective prioritization of positional candidates. Bioinformatik. 2006 22(6):773–4.

Turner F, Clutterbuck D, Semple C. POCUS: mining genomic sequence annotation to predict disease genes. Genombiologie. 2003 4(11):R75.

Masotti D, Nardini C, et al. TOM: enhancement and extension of a tool suite for in silico approaches to multigenic hereditary disorders. Bioinformatik. 2008 24(3):428–9.

Chen J, Bardes EE, et al. ToppGene Suite for gene list enrichment analysis and candidate gene prioritization. Nukleinsäuren Res. 2009 37(suppl 2):W305—11.

Adie EA, Adams RR, et al. Speeding disease gene discovery by sequence based candidate prioritization. BMC Bioinformatik. 2005 6(55):1–13.

Stelzl U, Wanker EE. The value of high quality protein-protein interaction networks for systems biology. Curr Opin Chem Biol. 2006 10:551–8.

Gandhi TKB, Zhong J, et al. Analyse des menschlichen Protein-Interaktoms und Vergleich mit Hefe-, Wurm- und Fliegen-Interaktionsdatensätzen. Nat Genet. 2006 38:285–93.

Oti M, Snel B, Huynen MA, et al. Predicting disease genes using proteinCprotein interactions. J Med Genet. 2006 43(8):691–8.

Chen JY, Shen C, Sivachenko AY. Mining Alzheimer disease relevant proteins from integrated protein interactome data. Pac Symp Biocomput. 2006 11:367–78.

Erten S, Bebek G, et al. Disease gene prioritization based on topological similarity in protein-protein interaction networks. Res Comput Mol Biol. 2011 2011:54–68.

Sprinzak E, Sattath S, Margalit H. How Reliable are Experimental Protein-Protein Interaction DataJ Mol Biol. 2003 327(5):919–23.

Chen J, Yuan B. Detecting Functional Modules in the Yeast Protein-Protein Interaction Network. Bioinformatik. 2006 22(18):2283–90.

Bader GD, Hogue CWV. Analyzing yeast protein-protein interaction data obtained from different sources. Nat. Biotechnologie. 2002 20(10):991–7.

Batada N, Hurst LD, Tyers M.Evolutionary and physiological importance of hub proteins. PLoS Comp Bio. 2006 2:e88.

Collins SR, Kemmeren P, Zhao XC, et al. Toward a comprehensive atlas of the physical interactome of Saccharomyces cerevisiae. Mol Cell Proteomics. 2007 6(3):439–50.

Wu C, Zhu J, Zhang X. Integrating gene expression and protein-protein interaction network to prioritize cancer-associated genes. BMC Bioinformatik. 2012 13(1):182.

Li W, Chen L, He W, et al. Prioritizing Disease Candidate Proteins in Cardiomyopathy-Specific Protein-Protein Interaction Networks Based on “Guilt by Association” Analysis. Plus eins. 2013 8(8):e71191.

Kumar A, Agarwal S, et al. Subcellular localization of the yeast proteome. Genes and development. 2002 16(6):707–19.

de Lichtenberg U, Jensen LJ, et al. Dynamic complex formation during the yeast cell cycle. Wissenschaft. 2005 307(5710):724–7.

Altshuler D, Daly M, Kruglyak L. Guilt by association. Nat Genet. 2000 26(2):135–8.

Kohler S, Bauer S, Horn D, et al. Walking the interactome for prioritization of candidate disease genes. Am J Hum Genet. 2008 82(4):949–58.

Huh WK, Falvo JV, et al. Global analysis of protein localization in budding yeast. Natur. 2003 425(6959):686–91.

Peng X, Wang J, et al. An efficient method to identify essential proteins for different species by integrating protein subcellular localization information. Bioinformatics Biomed. 2015 2015:277–80.

Peng X, Wang J, et al. Rechecking the Centrality-Lethality Rule in the Scope of Protein Subcellular Localization Interaction Networks. Plus eins. 2015 10(6):1–22.

Tang X, Wang J, et al. Predicting essential proteins based on weighted degree centrality. IEEE/ACM Trans Comput Biol Bioinformatics. 2014 11(2):407–18.

Binder JX, Pletscher-Frankild S, et al. COMPARTMENTS: unification and visualization of protein subcellular localization evidence. Database. 2014 2014. bau012.

Stark C, Breitkreutz BJ, et al. Biogrid: a general repository for interaction datasets. Nukleinsäuren Res. 2006 34(1):D535—9.

Rende D, Baysal N, Kirdar B. Complex disease interventions from a network model for type 2 diabetes. PloS One. 2013 8(6):e65854.

Manabe Y, Tochigi M, et al. Insulin-like growth factor 1 mRNA expression in the uterus of streptozotocin-treated diabetic mice. J Reprod Dev. 2013 59(4):398–404.

Liu X, Xu J. Reduced Histone H3 Acetylation in CD4. Disease Markers. 2015 2015:1–8.

Linner C, Svartberg J, Giwercman A, et al. Estrogen receptor alpha single nucleotide polymorphism as predictor of diabetes type 2 risk in hypogonadal men. Aging Male. 2013 16(2):52–7.

Wei FJ, Cai CY, et al. Quantitative candidate gene association studies of metabolic traits in Han Chinese type 2 diabetes patients. Genet Mol Res GMR. 2015 14(4):15471.

Devaney JM, Gordish-Dressman H, et al. AKT1 polymorphisms are associated with risk for metabolic syndrome. Hum Genet. 2011 129(2):129–39.

Hami J, Kerachian MA, et al. Effects of streptozotocin-induced type 1 maternal diabetes on PI3K/AKT signaling pathway in the hippocampus of rat neonates. J Receptors Signal Transduction. 2015 2015:1–7.

Zheng H, Fu J, et al. CNC-bZIP protein Nrf1-dependent regulation of glucose-stimulated insulin secretion. Antioxidants Redox Signal. 2015 22(10):819–31.

Hirotsu Y, Higashi C, et al. Transcription factor NF-E2-related factor 1 impairs glucose metabolism in mice. Genes Cells. 2014 19(8):650–65.

Ferre S, de Baaij JHF, et al. Mutations in PCBD1 cause hypomagnesemia and renal magnesium wasting. J Am Soc Nephrol. 2013 2013. ASN 2013040337.

Simaite D, Kofent J, et al.Recessive mutations in PCBD1 cause a new type of early-onset diabetes. Diabetes. 2014 63(10):3557–64.

Han J, Zhang M, et al. The Identification of Novel Protein-Protein Interactions in Liver that Affect Glucagon Receptor Activity. Plus eins. 2015 10(6):e0129226.

Sakiyama H, Wynn RM, et al. Regulation of Nuclear Import/Export of Carbohydrate Response Element-binding Protein (ChREBP) INTERACTION OF AN alpha-HELIX OF ChREBP WITH THE 14–3-3 PROTEINS AND REGULATION BY PHOSPHORYLATION. J. Biol. Chem. J. Biol. 2008 283(36):24899–908.

Somanath PR. 14-3-3 beta-Rac1-p21 activated kinase signaling regulates Akt1-mediated cytoskeletal organization, lamellipodia formation and fibronectin matrix assembly. J Cell Physiol. 2009 218(2):394–404.

Chen J, Chen JK, et al. EGFR signaling promotes TGF-dependent renal fibrosis. J Am Soc Nephrol. 2012 23(2):215–24.

Chen J, Chen JK, Harris RC. EGF receptor deletion in podocytes attenuates diabetic nephropathy. J Am Soc Nephrol. 2015 26(5):1115–25.

Hwang KW, Won TJ, et al. Erratum to “Characterization of the regulatory roles of the SUMO”. Diabetes/metabolism Res Rev. 2012 28(2):196–202.

Hwang KW, Won TJ, et al. Characterization of the regulatory roles of the SUMO. Diabetes/metabolism Res Rev. 2011 27(8):854–61.

Owerbach D, Pina L, Gabbay KH. A 212-kb region on chromosome 6q25 containing the TAB2 gene is associated with susceptibility to type 1 diabetes. Diabetes. 2004 53(7):1890–3.


Concept recognition for relation extraction: the protein interaction pairs subtask

Finally, the most detailed level of information that may interest a bench biologist is the extracted interaction data itself. This information could be presented to the biologist as the results of a literature search. Alternatively, the methods used to extract the data could be used to support database expansion and management. For the IPS subtask [42] we used OpenDMAP, which is a concept recognition system that has been developed by our group. As is typical for concept recognizers using manually constructed grammars, our system is geared toward optimizing precision. The procedure begins with preprocessing the HTML, and then moves to species recognition, entity tagging and part of speech tagging, followed by extraction of protein-protein interactions. Our approach for detecting interacting protein pairs relies heavily on the systems generated for the GM and GN tasks.

Preprocessing

HTML parsing

The HTML parser developed to process the raw HTML documents was an extension of a similar parser developed for the TREC Genomics 2006 task [36]. The title, abstract, paragraphs, sentences, section headings, and subsection headings were extracted for each document. Document sections were inferred based on the section heading text. Sentence boundaries were detected using the LingPipe sentence chunker [6]. Sentences were mapped back to the original HTML using a dynamic programming approach.

Protein mention tagging

We used a variant of the system developed for the GM task to tag genes/proteins in which the outputs of ABNER [7] (both models) and LingPipe [6] (BioCreative04 model) were combined using the combining filter (see the section on GM, above). As we pointed out in the GM task introduction, the distinction between gene and protein mentions in text is often vague, and therefore for the purposes of the analyses conducted in this paper we consider them to be equivalent.

Linguistic tagging

Part of speech (POS) tagging was done using the GENIA POS Tagger [43].

Species classification

Species classification was done using a modified dictionary search. The species dictionary was constructed from the intersection of words from the National Center for Biotechnology Information (NCBI) names.dmp file (a list of all known scientific names and synonyms for organisms) and the set of NCBI taxonomy identifiers present in the IPS training set. These words were then combined into a single regular expression pattern for each species. In the flanking region of ± 50 characters around each detected species, we searched for bigrams that would further indicate a particular species in order to filter out false positive identifications. This set of 'indicator bigrams' was created by calculating the frequency of bigrams in the flanking region of the IPS training data. Each indicator bigram was assigned a log-odds score using the formula:

Log-odds scores were summed to determine the score of a single species match. The total score for a given species classification for a single article was calculated by combining the number of times a species match was made and the sum of the log-odds for indicator bigrams per match. Once scored, the species for a given document was returned in rank order. We experimented with the optimal number of species results to return and found the best results when the maximum number of species returned from the ranked list was two.

Protein mention normalization

Gene/protein lexicon construction

Dictionaries were constructed for each species that was observed in the IPS training data by extracting information from the uniprot_light_table_updated.txt file supplied by the BioCreative organizers.

Protein mention normalization

Each gene/protein mention was normalized using the procedure described above for the GN task, using the dictionary for the identified species. We experimented with the optimal number of normalized identifiers to return and found the best results when we limited the output to one normalized entry per gene mention in text.

OpenDMAP and conceptual patterns

We extracted protein-protein interaction pairs by applying OpenDMAP [3], an open source, ontology-based concept recognition system available at [44]. It works by associating manually written patterns to concepts in free text. The patterns combine information about concepts, keywords, parts of speech, phrase types, and other syntactic features into single patterns.

OpenDMAP patterns are written in a regular grammar syntax that consists of nonterminal elements on the left-hand side and terminal and nonterminal elements on the right. Nonterminal elements are linked to a Protégé ontology [45], which describes the protein-protein interaction frame with an interaction class that has two slots: interactor1 and interactor2. An example of an OpenDMAP pattern for the IPS task looks like the following expression:

= [interactor1] interacts with [interactor2]

Where elements presented in represent classes in the ontology, elements in [brackets] correspond to slots of the class on the left-hand side of the pattern, and bare strings are terminals. The slots are constrained in the ontology to have specific features for the IPS task, the slot elements [interactor1] and [interactor2] are constrained to be proteins.

When a sentence is input to the system, OpenDMAP recognizes that the marked proteins tagged by our GM system match the constraints on the frame slots [interactor1] and [interactor2]. When OpenDMAP matches the rest of the pattern elements, an instance of a protein-protein interaction frame is created. The interactor1 and interactor2 slots are filled with the protein instances from text that matched the pattern. The output is a protein-protein interaction frame from the ontology, filled in with instances of the interactors found in the text. See Figure 1 for a step-by-step representation of this process.

IPS: steps of the protein-protein interaction extraction system. IPS, interaction pair subtask.

We used a variety of discovery procedures to build the patterns, including interview sessions with 'native speakers' (scientists with expertise in biology), and examination of corpora for pattern elements. The interviews were used to determine the set of predicates that described protein-protein interaction. Biologists were given a set of sentences in varying constructions (active, passive, and so on) and asked to determine whether plugging in the verbs from a list would result in a sentence denoting physical protein-protein interaction.

The corpus investigation uncovered frequently occurring n-grams and frequently occurring strings between protein mentions [46]. We used the BioCreative 2006 IPS, ISS, and IAS training data the PICorpus (available at [47]) [48, 49] material generated by Jörg Hakenberg [50] and Anna Veuthey and the Prodisen corpus (available at [51]).

The final grammar consisted of 67 rules. The patterns used in the IPS task are available at [44]. The grammar handles verbal and nominalization constructions, and various forms of conjunction, but not negation. We experimented with using unbounded wildcards, the results of which were higher recall but very low precision. We also experimented with the insertion of various parts of speech and phrase types between the protein slot pattern elements, with the result that the final pattern set includes adjective, adverb, and determiner POS elements, as well as various prepositional phrase types.


Laden Sie diesen Artikel für Ihren persönlichen wissenschaftlichen, Forschungs- und Bildungsgebrauch herunter und drucken Sie ihn aus.

Kaufen Sie eine einzelne Ausgabe von Wissenschaft für nur 15 USD.

Wissenschaft

Vol 302, Issue 5644
17 October 2003

Artikel Tools

Bitte melden Sie sich an, um eine Benachrichtigung für diesen Artikel hinzuzufügen.

By Ronald Jansen , Haiyuan Yu , Dov Greenbaum , Yuval Kluger , Nevan J. Krogan , Sambath Chung , Andrew Emili , Michael Snyder , Jack F. Greenblatt , Mark Gerstein

Wissenschaft 17 Oct 2003 : 449-453


Leveraging polygenic enrichments of gene features to predict genes underlying complex traits and diseases

Genome-wide association studies (GWAS) are a valuable tool for understanding the biology of complex traits, but the associations found rarely point directly to causal genes. Here, we introduce a new method to identify the causal genes by integrating GWAS summary statistics with gene expression, biological pathway, and predicted protein-protein interaction data. We further propose an approach that effectively leverages both polygenic and locus-specific genetic signals by combining results across multiple gene prioritization methods, increasing confidence in prioritized genes. Using a large set of gold standard genes to evaluate our approach, we prioritize 8,402 unique gene-trait pairs with greater than 75% estimated precision across 113 complex traits and diseases, including known genes such as SORT1 for LDL cholesterol, SMIM1 for red blood cell count, and DRD2 for schizophrenia, as well as novel genes such as TTC39B for cholelithiasis. Our results demonstrate that a polygenic approach is a powerful tool for gene prioritization and, in combination with locus-specific signal, improves upon existing methods.

Konkurrierende Zinserklärung

J.C.U reports compensation from consulting services with Goldfinch Bio and AVROBIO. R.S.F. is an employee of Vertex Pharmaceuticals. C.P.F. is an employee of Bristol Myers Squibb. J.O.M. reports compensation for consulting services with Cellarity. A.R. is a co-founder and equity holder of Celsius Therapeutics, an equity holder in Immunitas, and was an SAB member of ThermoFisher Scientific, Syros Pharmaceuticals, Neogene Therapeutics and Asimov until July 31, 2020. From August 1, 2020, A.R. is an employee of Genentech. J.N.H. served on the Scientific Advisory Board of and consults for Camp4 Therapeutics. E.S.L. serves on the Board of Directors for Codiak BioSciences and Neon Therapeutics, and serves on the Scientific Advisory Board of F-Prime Capital Partners and Third Rock Ventures he is also affiliated with several non-profit organizations including serving on the Board of Directors of the Innocence Project, Count Me In, and Biden Cancer Initiative, and the Board of Trustees for the Parker Institute for Cancer Immunotherapy. He has served and continues to serve on various federal advisory committees.

Finanzierungsnachweis

This research was conducted using the UK Biobank Resource under project 31063. H.K.F. was funded by NIH grant DP5 OD024582 and by Eric and Wendy Schmidt. J.M.E. was supported by a Pathway to Independence Award (K99HG00917 and R00HG009917), the Harvard Society of Fellows, and the Base Research Initiative at Stanford University. J.M. and J.N.H. were supported by NIH grant R01DK075787. R.S.F. was supported by NHGRI NIH F31HG009850. J.O.M was supported by the Richard and Susan Smith Family Foundation, the HHMI Damon Runyon Cancer Research Foundation Fellowship (DRG-2274-16), the AGA Research Foundation's AGA-Takeda Pharmaceuticals Research Scholar Award in IBD AGA2020-13-01, the HDDC Pilot and Feasibility P30 DK034854, and the Food Allergy Science Initiative.

Autorenerklärungen

Ich bestätige, dass alle relevanten ethischen Richtlinien befolgt wurden und alle erforderlichen Genehmigungen des IRB und/oder der Ethikkommission eingeholt wurden.

Die Einzelheiten des IRB/der Aufsichtsbehörde, die die Genehmigung oder Ausnahme für die beschriebene Forschung erteilt haben, sind nachfolgend aufgeführt:

Alle erforderlichen Einwilligungen des Patienten/Teilnehmers wurden eingeholt und die entsprechenden institutionellen Formulare wurden archiviert.

Mir ist bewusst, dass alle klinischen Studien und alle anderen prospektiven interventionellen Studien in einem von der ICMJE zugelassenen Register wie ClinicalTrials.gov registriert werden müssen. Ich bestätige, dass eine solche Studie, die im Manuskript berichtet wird, registriert wurde und die Studienregistrierungs-ID angegeben ist (Hinweis: Wenn eine prospektive Studie rückwirkend registriert wird, geben Sie bitte im Feld Studien-ID eine Erklärung an, warum die Studie nicht im Voraus registriert wurde) .

Ich habe alle einschlägigen Richtlinien für die Forschungsberichterstattung befolgt und die relevante(n) Checkliste(n) für die Forschungsberichterstattung des EQUATOR-Netzwerks sowie gegebenenfalls anderes relevantes Material als ergänzende Dateien hochgeladen.