Information

Was ist in einem Namen: Statistische Genetik


Der Anfänger führt häufig Populationsberechnungen mit der sogenannten Mendelschen Genetik durch. Bald nach der Veröffentlichung von Mendels Ergebnissen; Hardy und Weinberg präsentierten ihre Ergebnisse nach dem Einwurf einer Sammlung von Axiomen.

Gibt es einen Unterschied zwischen der Medelianischen Genetik und dem Hardy-Weinberg-Modell?


Mendel veröffentlichte seine Ergebnisse 1866, aber sie wurden erst 1900 wiederentdeckt. Das Hardy-Weinberg-Modell ist eine Anwendung von Mendels Regeln auf eine Population, die nicht unter Selektionskräften steht. Das eine baut also auf dem anderen auf, und Hardy-Weinberg ist modellmäßig eine Vereinfachung, und auch Mendels Regeln sind nicht detailliert genug. Es ist die gleiche Beziehung wie bei einem physikalischen Gesetz wie der Gravitation und einem mathematischen Modell seiner Konsequenzen, das auf viele Entitäten angewendet wird, wie Modelle des Gravitationsverhaltens eines Sonnensystems.


Statistische Genetik

Wahrscheinlichkeit und Statistik spielen in der Genetik eine wichtige Rolle. Der Mechanismus der “meiose”, die Bildung von Spermien oder Eizellen, wird als wahrscheinlichkeitstheoretisch angesehen, ebenso wie der Paarungsprozess in großen Populationen. Die Beziehung zwischen “Genotypen” (DNA-Sequenz) und “Phänotypen” (beobachtbare Merkmale oder Krankheiten) kann durch Wahrscheinlichkeitsverteilungen modelliert werden. Die Analyse genetischer Determinanten basiert auf zufälligen Stichproben aus einer Population, die häufig verzerrt sind, und für die Analyse solcher Daten sind verschiedene statistische Methoden erforderlich. Dieser Kurs bietet eine Einführung in stochastische Modelle und Methoden der Genetik und richtet sich an Studierende der Mathematik. Wir setzen gute Kenntnisse in den Bereichen Wahrscheinlichkeit und Statistik (z. B. Likelihood- und Bayes-Inferenz, Asymptotik, Testen) voraus, setzen jedoch keine Vorkenntnisse in der Genetik voraus. Insbesondere wird der Jargon in dieser Beschreibung erläutert.

Statistische Genetik ist ein klassischer Zweig der angewandten Wahrscheinlichkeit und Statistik, der in letzter Zeit aufgrund der bedeutenden Durchbrüche in der Genetik, sowohl experimentell als auch theoretisch, viel neues Interesse erlangt hat. Mit modernen Techniken und deutlich mehr Daten soll es möglich sein, Krankheiten und andere Merkmale mit Genen (DNA-Stücken) in Verbindung zu bringen, die sich in noch nie dagewesener Weise präzise auf dem Genom lokalisieren lassen. Man könnte mit Sicherheit sagen, dass dieser Bereich zu den heißesten in der angewandten Stochastik und in der Wissenschaft im Allgemeinen gehört. Es gibt viele Möglichkeiten für Mathematiker, die sich für Life Sciences interessieren. Dieser Kurs beinhaltet Teile aus vielen verschiedenen Bereichen der Statistik.

Natürlich beginnen wir mit Mendels Gesetzen der “Segregation”, die festlegen, dass jeder Elternteil ein zufällig ausgewähltes Gen aus jedem Genpaar unabhängig von den Genen an seine Nachkommen weitergibt. Die letztere Unabhängigkeit stellte sich später als unwahr heraus und wurde durch “Linkage-Modelle” ersetzt, die eine positive Abhängigkeit zwischen Genen vorschreiben, die eng beieinander im Genom sitzen. Das beliebteste Modell basiert auf einem Poisson-Prozessmodell für “Crossovers” während der Meiose. Die resultierenden Modelle in Kombination mit “Penetranzmodellen” (bedingte Verteilungen für Phänotypen mit gegebenen Genotopien) ermöglichen es, Wahrscheinlichkeiten für die beobachteten Phänotypen in Familien (oder “Pedigrees”) zu schreiben und so die Abhängigkeit phänotypischer Merkmale von genetischen Faktoren abzuschätzen . Da eine Full-Likelihood-Analyse die Angabe vieler Wahrscheinlichkeitsdichten erfordert und rechenintensiv ist, basieren andere Verfahren mit dem gleichen Ziel auf reduzierten Daten, insbesondere dem “IBD” (Identity by Descent) Status, und/oder auf cleveren Stichprobenplänen . “Assoziation”-Studien basieren auf der Idee, dass eine Population unter einer zufälligen Paarungsannahme zum Gleichgewicht tendieren sollte, wobei Abweichungen in Genpaaren (möglicherweise) in einer zufälligen Stichprobe von Individuen darauf hindeuten, dass diese Gene nahe beieinander liegen Genom. Schließlich zielt die “biometrische Analyse” darauf ab, phänotypische Variationen in genetische und umweltbezogene Teile zu zerlegen.

Dozent:
Marianne Jonker (www.few.vu.nl/

Erforderliche Kenntnisse:
Lehrveranstaltungen in Wahrscheinlichkeit und Statistik aus einem Bachelor-Studiengang Mathematik oder gleichwertig. Keine genetischen Kenntnisse erforderlich.

Treffen:
Freitagnachmittag: 13.30-16.15
Raum: WN-P624 (Woche 36-42)
Raum: WN-S607 (Woche 44-50)

Anmerkung:
Wenn Sie nicht zum ersten Treffen kommen, senden Sie eine E-Mail an den Dozenten ([email protected]), da der Kurs bei unzureichender Anmeldung zu einem Lesekurs wird.

Literatur :
Vorlesungsnotizen (unser Haupttext).
Peter Almgren, Par-Ola Bendahl, Henrik Bengtsson, Ola Hossjer, Roland Perfekt: Statistik in der Genetik. Herunterladbar von: Universität Lund

Übungen:
Es gibt keine formale Problemklasse. Einige Übungen werden jedoch in den Sitzungen am Freitag besprochen.

9. September:
Kapitel 1 Biologie, Mather
Hausaufgaben: Übungen 1, 2, 3 (Woche 1)

16. September:
Rest von Kapitel 1, Kapitel 2 bis Seite 25
Hausaufgaben: Übungen 1, 2, 3, 4 (Woche 2)

23. September:
Kapitel 2: HWE und LE (keine Abschnitte mit Sternchen)
Abschnitt 14.7: EM-Algorithmus
Hausaufgaben:
Versuchen Sie Abschnitt 2.2.2 zu verstehen
Berechnen Sie die Maximum-Likelihood-Schätzer auf Folie 24.
Führen Sie die Berechnungen auf Folie 29 durch.

30. September:
Kapitel 3: Ahnentafel-Wahrscheinlichkeiten
Hausaufgaben: Übungen 1, 2 (Kapitel 3, Woche 4)

7. Oktober:
Kapitel 4: Identität nach Abstammung
Vererbungsvektoren (Abschnitte 1.4, 3.6)
Hausaufgabe: Übung 2 der letzten Woche
Übung 4.1 (auf Seite 83)
Überprüfen Sie die Werte in den Tabellen 4.1, 4.2 und 4.3

21. Oktober:
Kapitel 5
Brustkrebsforschung (nicht im Skript)

28. Oktober:
Herbstferien, kein Vortrag

4. November: ( Let op vanaf nu: College in Zaal WN-S607 )
Kapitel 6 (Dozent: Aad van der Vaart):
Abschnitt 14.6
Abschnitt 6.1 bis Seite 111

11. November: (Lassen Sie op: College in Zaal WN-S607)
Kapitel 6 (Dozent: Aad van der Vaart)

18. November:
Kapitel 7
Hausaufgabe: Übung 2 (nicht 2f) der Prüfung Dezember 2006
Übungswoche 9

25. November:
Kapitel 8
Hausaufgaben: siehe Skriptum

2. Dezember:
Kapitel 9, Abschnitt 9.1
Hausaufgaben: siehe Skriptum

9. Dezember:
Kapitel 9, Abschnitt 9.2
Hausaufgabe: Juni 2005, Übungen 3, 4
Dezember 2006, Übung 1
Lund 1: 6, 8, 9, 10
Lund 2: 6

Prüfung:
Geschrieben.
Datum: 21. Dezember, Uhrzeit: 15.15-18.00 (überprüfen Sie immer den Zeitplan auf Änderungen)

Alte Prüfungen:
Juni 2005
Dezember 2006
Juli 2007
Um sich selbst zu testen, können Sie die Prüfungen der Universität Lund Lund 1 und Lund 2 mit Bild ausprobieren.


Inhalt

In den letzten zwei Jahrzehnten bestand ein großes Interesse am Verständnis der genetischen und genomischen Zusammensetzung verschiedener Arten, einschließlich des Menschen, das hauptsächlich durch die verschiedenen Genomsequenzierungstechnologien zum Lesen der sich schnell entwickelnden Genome unterstützt wurde. Diese Technologien sind jedoch noch begrenzt, und rechnerische und statistische Methoden sind ein Muss, um Fehler zu erkennen und zu verarbeiten und die Teilinformationen aus den Sequenzierungs- und Genotypisierungstechnologien zusammenzusetzen.

Ein Haplotyp ist die Sequenz von Nukleotiden (A,G,T,C) entlang eines einzelnen Chromosoms. Beim Menschen haben wir 23 Chromosomenpaare. Ein weiteres Beispiel ist Mais, der ebenfalls diploid mit 10 Chromosomenpaaren ist. Mit der aktuellen Technologie ist es jedoch schwierig, die beiden Chromosomen innerhalb eines Paares zu trennen, und die Assays erzeugen den kombinierten Haplotyp, die so genannte Genotyp-Information an jedem Nukleotid. Das Ziel des Haplotyp-Phasings besteht darin, die Phase der beiden Haplotypen anhand der kombinierten Genotypinformationen zu finden. Die Kenntnis der Haplotypen ist äußerst wichtig und gibt uns nicht nur ein vollständiges Bild des Genoms eines Individuums, sondern unterstützt auch andere computergestützte genomische Prozesse wie die Imputation unter vielen bedeutenden biologischen Motivationen.

Bei diploiden Organismen wie Menschen und Mais besitzt jeder Organismus zwei Kopien eines Chromosoms – jeweils eine von den beiden Elternteilen. Die beiden Kopien sind sich sehr ähnlich. Ein Haplotyp ist die Sequenz von Nukleotiden in einem Chromosom. das Haplotyp-Phasenproblem konzentriert sich auf die Nukleotide, bei denen sich die beiden homologen Chromosomen unterscheiden. Rechnerisch gibt es für eine genomische Region mit K unterschiedlichen Nukleotidstellen 2^K – 1 mögliche Haplotypen, so dass sich das Phasenproblem darauf konzentriert, die wahrscheinlichsten Haplotypen bei einem beobachteten Genotyp effizient zu finden. Weitere Informationen finden Sie unter Haplotyp.

Obwohl das Genom eines höheren Organismus (Eukaryoten) Millionen von Single-Nukleotid-Polymorphismen (SNPs) enthält, sind Genotypisierungs-Arrays dafür bestimmt, nur eine Handvoll solcher Marker zu erkennen. Die fehlenden Marker werden mittels Imputationsanalyse vorhergesagt. Die Imputation von nicht genotypisierten Markern ist mittlerweile ein wesentlicher Bestandteil genetischer und genomischer Studien. Es nutzt das Wissen über das Kopplungsungleichgewicht (LD) von Haplotypen in einem bekannten Referenzpanel (z. B. HapMap und die 1000 Genome Projects), um Genotypen an den fehlenden oder nicht genotypisierten Markern vorherzusagen. Der Prozess ermöglicht es den Wissenschaftlern, sowohl die genotypisierten polymorphen Marker als auch die nicht genotypisierten Marker, die rechnerisch vorhergesagt werden, genau zu analysieren. Es hat sich gezeigt, dass nachgelagerte Studien [3] stark von der Imputationsanalyse in Form einer verbesserten Aussagekraft zur Erkennung krankheitsassoziierter Loci profitieren. Ein weiterer entscheidender Beitrag der Imputation ist, dass sie auch die Kombination von genetischen und genomischen Studien erleichtert, die für ihre Experimente unterschiedliche Genotypisierungsplattformen verwendet haben. Zum Beispiel. Obwohl 415 Millionen häufige und seltene genetische Varianten im menschlichen Genom existieren, können die aktuellen Genotypisierungs-Arrays wie Affymetrix- und Illumina-Mikroarrays nur bis zu 2,5 Millionen SNPs testen. Daher ist die Imputationsanalyse eine wichtige Forschungsrichtung und es ist wichtig, Methoden und Plattformen zu identifizieren, um qualitativ hochwertige Genotypdaten unter Verwendung vorhandener Genotypen und Referenzpanels aus öffentlich zugänglichen Ressourcen wie dem International HapMap Project und dem 1000 Genomes Project zu imputieren. Für den Menschen hat die Analyse erfolgreich vorhergesagte Genotypen in vielen Rassen generiert, darunter Europäer [4] und Afroamerikaner. [5] Bei anderen Arten wie Pflanzen ist die Imputationsanalyse ein fortlaufender Prozess unter Verwendung von Referenzpanels wie bei Mais. [6]

Für die Genotyp-Imputation gibt es verschiedene Methoden. Die drei am häufigsten verwendeten Imputationsmethoden sind - Mach, [7] Impute [8] und Beagle. [9] Alle drei Methoden verwenden Hidden-Markov-Modelle als zugrunde liegende Grundlage für die Schätzung der Verteilung der Haplotyphäufigkeiten. Mach und Impute2 sind im Vergleich zu Beagle rechenintensiver. Sowohl Impute als auch Mach basieren auf unterschiedlichen Implementierungen des Produkts des Konditional- oder PAC-Modells. Beagle gruppiert die Haplotypen des Referenzpanels bei jedem SNP in Cluster, um ein lokalisiertes Haplotyp-Cluster-Modell zu bilden, das es ihm ermöglicht, die Anzahl der Cluster bei jedem SNP dynamisch zu variieren, wodurch es rechnerisch schneller als Mach und Impute2 wird.

Genomweite Assoziationsstudien (GWAS) haben sich in den letzten Jahren zu einem leistungsfähigen Instrument zur Erforschung der genetischen Grundlagen von Volkskrankheiten entwickelt und unser Verständnis der genetischen Grundlagen vieler komplexer Merkmale verbessert. [10] Traditioneller einzelner SNP (Single-Nukleotid-Polymorphismus) GWAS ist die am häufigsten verwendete Methode, um merkmalsassoziierte DNA-Sequenzvarianten zu finden – Assoziationen zwischen Varianten und einem oder mehreren interessierenden Phänotypen werden untersucht, indem Individuen mit unterschiedlichen Phänotypen untersucht und deren Genotypen bei . untersucht werden die Position jedes SNPs einzeln. Die SNPs, bei denen eine Variante bei Individuen einer phänotypischen Gruppe statistisch häufiger vorkommt, werden dann als mit dem Phänotyp assoziiert angegeben. Die meisten komplexen Volkskrankheiten beinhalten jedoch kleine Beiträge auf Bevölkerungsebene von mehreren genomischen Loci. Um so kleine Effekte wie genomweit signifikant zu erkennen, verlassen sich traditionelle GWAS auf eine erhöhte Stichprobengröße, z.B. Um einen Effekt zu erkennen, der 0,1 % der Gesamtvarianz ausmacht, müssen bei traditionellen GWAS fast 30.000 Personen Stichproben gezogen werden. Obwohl die Entwicklung von SNP-Genotypisierungstechnologien mit hohem Durchsatz die Kosten gesenkt und die Effizienz der Genotypisierung verbessert hat. Die Durchführung einer so groß angelegten Studie kostet immer noch viel Geld und Zeit. Kürzlich wurden Assoziationsanalysemethoden vorgeschlagen, die genbasierte Tests verwenden [11], die auf der Tatsache basieren, dass Variationen in Protein-kodierenden und angrenzenden regulatorischen Regionen eher funktionelle Relevanz haben. Diese Verfahren haben den Vorteil, dass sie mehrere unabhängige funktionelle Varianten innerhalb eines Gens berücksichtigen können, mit dem Potenzial, die Fähigkeit zur Identifizierung von krankheits-/merkmalsassoziierten Genen stark zu erhöhen. Außerdem sagt die Imputation nicht typisierter Marker unter Verwendung bekannter Referenzpanels (z die typisierten Marker) und verbessert nachweislich die Leistung von GWAS, krankheitsassoziierte Loci zu erkennen.

In Zeiten großer Mengen genetischer und genomischer Daten ist die genaue Darstellung und Identifizierung statistischer Interaktionen in biologischen/genetischen/genomischen Daten eine wichtige Grundlage für die Gestaltung von Interventionen und kurativen Lösungen für viele komplexe Krankheiten. Es ist seit langem bekannt, dass Variationen im menschlichen Genom uns anfällig für viele Krankheiten machen. Wir steuern auf das Zeitalter der persönlichen Genomik und der personalisierten Medizin zu, das genaue Vorhersagen des Krankheitsrisikos durch prädisponierende genetische Faktoren erfordert. Computergestützte und statistische Methoden zur Identifizierung dieser genetischen Variationen und deren Einbindung in intelligente Modelle für genomweite Studien zur Krankheitsassoziation und Interaktionsanalyse sind in vielen Krankheitsbereichen dringend erforderlich. Die Hauptherausforderungen sind: (1) Die meisten komplexen Krankheiten beinhalten kleine oder schwache Beiträge von mehreren genetischen Faktoren, die nur einen winzigen Bruchteil der genetischen Faktoren zugeschriebenen Populationsvariation erklären. (2) Biologische Daten sind von Natur aus extrem verrauscht, daher müssen die zugrunde liegenden Komplexitäten biologischer Systeme (wie Kopplungsungleichgewicht und genetische Heterogenität) in die statistischen Modelle für Krankheitsassoziationsstudien einbezogen werden. Die Wahrscheinlichkeit, viele Volkskrankheiten wie Krebs, Autoimmunerkrankungen und Herz-Kreislauf-Erkrankungen zu entwickeln, beinhaltet komplexe Interaktionen zwischen mehreren Genen und mehreren endogenen und exogenen Umweltfaktoren oder Kovariaten. Viele frühere Studien zur Krankheitsassoziation konnten keine signifikanten Ergebnisse liefern, da statistische Wechselwirkungen nicht in ihre mathematischen Modelle zur Erklärung des Krankheitsverlaufs einbezogen wurden. Folglich sind viele der genetischen Risiken, die mehreren Krankheiten und Störungen zugrunde liegen, unbekannt. Computermethoden wie [12] [13] [14] [15] [16] [17] zur Modellierung und Identifizierung der genetischen/genomischen Variationen, die den Krankheitsrisiken zugrunde liegen, haben ein großes Potenzial, die Vorhersage von Krankheitsausgängen zu verbessern, die Wechselwirkungen und das Design zu verstehen bessere darauf aufbauende Therapiemethoden.


Abgrenzung von Signalen aus Assoziationsstudien

Welche Loci soll ich anvisieren?

Die Analyse ganzer Genom-Datensätze entdeckt schnell neue mit Krankheiten assoziierte Loci: dh in nur drei kurzen Jahren stiegen die Assoziationen zu Typ-2-Diabetes (T2D) von drei Loci auf 41. Morbus Crohn (CD) stieg von einer Handvoll auf 30 , und diese ungeachtet neuer Loci sollten bis Ende des Kalenderjahres 2010 gemeldet werden. Da diese Listen weiter wachsen und ein begrenztes Budget für die Initiierung von Folgestudien vorhanden ist, ist die Auswahl der am besten handhabbaren Kandidaten für die Feinkartierung entscheidend, um eine Maximierung zu erzielen das biologische Verständnis extrahiert. Nicht jeder dieser Loci ist bei der genetischen Sezierung gleich gut handhabbar, und es gibt viele praktische Überlegungen, über die man nachdenken sollte. Zum einen gibt die Definition der Größe der Region ein Gefühl für die Menge der genetischen Variation, die man unter vernünftigen Populationsgenetischen Annahmen katalogisieren möchte, und folglich, wie viel Genotypisierung auf entdeckte Variation man erwarten könnte. Eine Möglichkeit, Regionen zu definieren, besteht darin, beim anfänglichen Assoziationssignal zu beginnen und sich entlang des Chromosoms in 5′- und 3′-Richtung zu den nächsten Rekombinations-Hotspots zu bewegen, die die Assoziation flankieren (basierend auf den geschätzten aus der HapMap), wobei eine zusätzliche Länge von . hinzugefügt wird physische Entfernung über die Grenzen des Hotspots hinaus, falls der Hotspot die Haplotypstruktur für das gegebene Intervall nicht vollständig aufbrechen kann. Ein besonders attraktives Feinkartierungsziel basierend auf der Größe der Region bezieht sich beispielsweise auf eine Assoziation für T2D auf Chromosom 9p21, die zufällig in eine sehr schmale Region (etwa 8 kb) fällt, die von zwei intensiven Rekombinations-Hotspots flankiert wird (siehe Saxena et al., [10], Abb. 2A). Im Gegensatz dazu kartiert ein in dieser Hinsicht viel weniger attraktiver Locus proximal zu den Genen HHEX, IDE, und KIF11 [11] und umfasst unter den gleichen Kriterien fast 400 kb (siehe Saxena et al. [10] , Abb. 2E).

Eine zweite wichtige Überlegung ist das Ausmaß, in dem mit dem Locus assoziierte annotierte Merkmale vorhanden sind, nämlich exprimierte Sequenzen, vorhergesagte Transkripte oder annotierte Gene, und wenn ja, wie viele sich in der interessierenden Region befinden. Gelegentlich wird ein Assoziationssignal genau einer Codierungsänderung zugeordnet, und für einige Merkmale wurden solche Merkmale identifiziert: SH2B3 bei Blutdruck und Herz-Kreislauf-Erkrankungen [12] , THADA für T2D [13] , PTPN22 für CD [14], rheumatoide Arthritis [15] und Typ-1-Diabetes [16] und ITGAM bei systemischem Lupus erythematodes (SLE) [17] . Im Allgemeinen sind jedoch Beispiele wie diese, bei denen eine primäre Assoziation ein Gen für die Kausalität freilegt, eher außergewöhnlich. Als Beispiel im extremsten alternativen Fall für Morbus Crohn zeigen sechs der 30 Loci Regionen ohne bekannte Protein-kodierende Gene, obwohl die Hälfte von ihnen mehr als ein Gen im starken Kopplungsungleichgewicht (LD) mit der zugehörigen Variante enthält [ 3] . Die attraktivsten Kandidaten in dieser Hinsicht neigen dazu, ein oder nur wenige Gene in der Nähe zu haben, z. B. ADAMTS9 bei Typ-2-Diabetes [13] , was die Anzahl plausibler Kandidaten, die man in nachgeschalteten funktionellen oder genetischen Experimenten in Betracht ziehen könnte, begrenzt.

Ein weiterer wichtiger zu berücksichtigender Faktor ist die erwartete statistische Aussagekraft, die einem zur Verfügung steht, um Studien am Zielort durchzuführen. Letztlich hängt die Stärke hier von der Effektstärke der zugrunde liegenden Casual-Variante ab (die man annähern kann, da das anfängliche Signal ein naher Proxy für diese Variante ist), der Häufigkeit des Ziel-SNP und der Anzahl der Stichproben, die man in die investieren muss Experiment. Wenn das Ziel darin besteht, die Auflösung eines bestehenden Signals zu verbessern oder neue assoziierte Varianten unabhängig von den zuvor etablierten zu identifizieren, werden umso weniger Stichproben benötigt, um eine dieser beiden Fragen schlüssig zu beantworten, je größer die anfängliche Effektstärke ist. Es sollte beachtet werden, dass viele Online-Ressourcen (z. B. der Genetic Power Calculator) eine schnelle und einfache Berechnung der erwarteten Aussagekraft zum Nachweis von Assoziationen für gegebene Stichprobengrößen unter verschiedenen genetischen Modellen ermöglichen, was die Berücksichtigung von LD einschließt [18] .

Eine Folge dieser Überlegung ist, inwieweit auch andere Merkmale Assoziationen in der Region beherbergen. Am 4. August 2009 waren im GWA-Studienkatalog des National Human Genome Research Institute NHGRI 2055 Einträge registriert, von denen 923 einen genomweiten Schwellenwert überschritten (P < 5 × 10 –8 ). 9p21 ist in dieser Hinsicht beispielsweise attraktiv, da deutliche Assoziationen zu Typ-2-Diabetes und Herz-Kreislauf-Erkrankungen in enger räumlicher Nähe, aber im Kopplungsgleichgewicht miteinander auftreten [10, 19–22] . Angesichts der Evidenz, dass Diabetiker ein erhöhtes Risiko für kardiovaskuläre Komplikationen haben [23] , wäre ein detailliertes Verständnis der zufälligen Risikofaktoren und der damit verbundenen Gene in dieser Region für beide phänotypischen Gemeinschaften besonders aufschlussreich.

Neben statistischen genetischen Ansätzen bieten bioinformatische Werkzeuge eine zusätzliche Möglichkeit, die Sammlung von interessierenden Loci abzufragen, um Regionen mit wahrscheinlichen Kandidatengenen von Interesse zu priorisieren oder potenzielle kausale Gene zu identifizieren. Diese Tools fragen im Allgemeinen große und oft aber unterschiedliche Aspekte von Daten ab. Eine nicht erschöpfende Liste der in diesem Zusammenhang verwendeten Tools umfasst:

Die Human Mutational Database (HGMD). Eine aktualisierte Sammlung von Mutationen in allen Genen, die sich auf einen Phänotyp beim Menschen beziehen.

Genbeziehungen zwischen implizierten Loci (GRAIL). Ein textbasiertes Mining-Tool, das eine Liste von Krankheitsregionen aufnimmt und automatisch den Grad der Verwandtschaft implizierter Gene basierend auf der Wortgemeinsamkeit von über 250.000 PubMed-Abstracts bewertet [24].

Protein-Protein-Netzwerke. Diese Datensätze basieren auf Screens, die Proteine ​​mit direkten Wechselwirkungen miteinander identifizieren.

REAKTOM. Eine von Experten kuratierte Datenbank für eine Vielzahl von biologischen Pfaden und Netzwerken.

Sylamer. Ein Werkzeug zum Nachweis der Anreicherung spezifischer Subsequenzmerkmale in vielen großen Sequenzsammlungen, das insbesondere zum Nachweis von Mikro-RNAs entwickelt wurde [25] .

Ausdrucks-Screening. Eine Methode, die Informationen aus Tausenden von Microarray-Datensätzen integriert, um Gene zu identifizieren, die konsistent mit einem Zielpfad über biologische Zusammenhänge hinweg koexprimiert werden [26, 27] .

Eine allgemeine Schlussfolgerung hier ist, dass jeder Locus mit individuellen Herausforderungen und potenzieller Zugkraft verbunden ist, die genetisch seziert werden müssen a priori. Ein wichtiger Aspekt jedes Studiendesigns besteht darin, möglichst viele Informationen aus einem vielfältigen Portfolio an verfügbaren Ressourcen zu berücksichtigen (und angemessen zu gewichten). Oftmals gibt es keinen „perfekten“ Ort für die Feinkartierung. Die beste Auswahl an Überlegungen sollte gemeinsam gesammelt werden, von denen jede die Wahrscheinlichkeit eines erfolgreichen Kartierungsexperiments erhöhen kann: eine, die die Auflösung verbessert und schlussendlich einen Satz von SNPs impliziert oder Gene, die wahrscheinlich mit dem interessierenden Merkmal in Zusammenhang stehen. Sobald eine Menge von Loci als ideales Ziel identifiziert wurde, kann das Design des Fine-Mapping-Experiments beginnen, dem wir uns nun zuwenden.


Zulassungsinformationen

Der Track Statistische Genetik richtet sich an Personen, die eine Karriere in der Genforschung planen oder bereits aktiv sind. Die Bewerber müssen ein Interesse an der Genetik sowie eine Fähigkeit zum quantitativen Denken nachweisen.

Bewerber sollten einen Hintergrund in Hochschulmathematik und Statistik (einschließlich Analysis und grundlegender Wahrscheinlichkeit und Statistik) haben und mit Linear-/Matrixalgebra vertraut oder vertraut mit ihr sein. Studierende mit zusätzlichem Hintergrund in Informatik, Biologie und Interesse an Genetik und komplexen Krankheiten werden bevorzugt behandelt. Exzellente Ergebnisse beim GRE werden erwartet. Internationale Studierende müssen auch TOEFL-Ergebnisse einreichen.


Überblick

Zusammenfassung

Eine umfassende Einführung in die moderne angewandte statistische genetische Datenanalyse, zugänglich für Personen ohne Vorkenntnisse in Molekularbiologie oder Genetik.

Die humangenetische Forschung ist heute über die Biologie, Epidemiologie und die medizinischen Wissenschaften hinaus relevant, mit Anwendungen in Bereichen wie Psychologie, Psychiatrie, Statistik, Demographie, Soziologie und Wirtschaftswissenschaften. Dank der Fortschritte bei der Rechenleistung, der Verfügbarkeit von Daten und neuen Techniken ist es heute möglich, groß angelegte molekulargenetische Informationen in die Forschung zu einem breiten Themenspektrum zu integrieren. Dieses Buch bietet die erste umfassende Einführung in die moderne angewandte statistische genetische Datenanalyse, die Theorie, Datenaufbereitung und Analyse molekulargenetischer Daten mit praktischen Computerübungen umfasst. Es ist für Studierende und Forschende aller empirisch orientierten medizinischen, biologischen oder sozialwissenschaftlichen Disziplinen zugänglich. Ein Hintergrund in Molekularbiologie oder Genetik ist nicht erforderlich.

Das Buch bietet zunächst Grundlagen für die statistische Analyse genetischer Daten, einschließlich eines Überblicks über grundlegende Konzepte, Einführungen in Statistik und menschliche Evolution sowie eine Einführung in polygene Scores. Anschließend werden die praktischen Aspekte der Arbeit mit genetischen Daten behandelt und Themen wie analytische Herausforderungen und Datenmanagement erörtert. Schließlich präsentiert das Buch Anwendungen und fortgeschrittene Themen, einschließlich polygener Score- und Gen-Umwelt-Interaktionsanwendungen, Mendelsche Randomisierung und instrumentelle Variablen sowie ethische Fragen. Die im Buch verwendete Software und Daten sind frei verfügbar und auf der Website des Buches zu finden.

Taschenbuch

Teilen

Autoren

Melinda C. Mills

Nicola Barban

Felix C. Tropf

Empfehlungen

Ich werde regelmäßig gebeten, ein Buch zu empfehlen, das einen umfassenden Überblick über Methoden der statistischen Genetik in einer zugänglichen Sprache mit klaren Anwendungen auf wichtige Forschungsfragen bietet. Suchen Sie nicht weiter. Mills, Barban und Tropf liefern ein hervorragendes Beispiel für ein solches Buch mit Eine Einführung in die statistische genetische Datenanalyse.

Professor für Soziologie und Health & Society Program Director am Institute of Behavioral Science, University of Colorado at Boulder

Möchten Sie eine statistische Analyse der Flut genetischer Daten durchführen, die heutzutage in die Wissenschaft strömt? Eine Einführung in die statistische genetische Datenanalyse ist Pflichtlektüre für Sie. Mills, Barban und Tropf führen den Leser durch die Grundlagen dessen, was ein Gen ist, und gehen auf fortschrittliche Datenanalysetechniken ein und liefern dabei viele überzeugende Beispiele.

Henry Putnam University Professor für Soziologie, Princeton University und Autor von The Genome Factor

Es wird immer deutlicher, dass Genetik nicht nur für Krankheiten wichtig ist. Es trägt zu vielen Aspekten des menschlichen Verhaltens und Eigenschaften bei. Dieses Buch ist am wertvollsten für diejenigen, die keine Grundausbildung in statistischer Genetik hatten, aber beginnen, genetische Daten in ihre Untersuchungen einzubeziehen.

Professor für statistische Genetik, University of Oxford

Zeitgenössische genetische Daten bieten viele Möglichkeiten, und dieses Buch ist mit Sicherheit die beste verfügbare Einführung. Das Erstaunliche an dem Buch ist, wie umfassend und ausgefeilt es ist, während es durchweg klar bleibt. Die Art und Weise, wie das Buch seine Erklärungen mit Softwarebeispielen verwebt, macht es zu einem perfekten Begleiter für alle, die besser verstehen wollen, was diese Methoden bieten und wie ein Forscher sie tatsächlich anwenden kann.


Postdoc in Statistischer Genetik

Die Abteilung Statistische Genetik der Abteilung Computational Biology am Institut Pasteur sucht einen hochmotivierten, talentierten und kooperativen Postdoktoranden. Der erfolgreiche Kandidat wird an mehreren geförderten Projekten teilnehmen, die sich mit der Inferenz der genetischen Struktur, die häufigen Erkrankungen beim Menschen zugrunde liegt, beschäftigen. Die Position hat eine starke statistische und rechnerische Komponente mit besonderem Schwerpunkt auf multivariaten Ansätzen und Interaktionseffektmodellen. Die Projekte beinhalten reale Datenanwendungen in großen mehrdimensionalen Kohorten und werden in einem stark kollaborativen Umfeld durchgeführt, das sowohl internationale als auch nationale Forschungsgruppen umfasst.

QUALIFIKATIONEN

Der ausgewählte Kandidat sollte über einen soliden quantitativen Hintergrund mit soliden statistischen und rechnerischen Fähigkeiten verfügen. Er/sie sollte mindestens eine Programmiersprache beherrschen (z. B. C/C++, Java, Perl, Python). Kenntnisse in Biologie oder Genetik sind wünschenswert, aber nicht erforderlich. Der Kandidat hat in der Regel einen Doktortitel in Statistik/Biostatistik, Epidemiologie, Bioinformatik, Informatik oder anderen relevanten Disziplinen mit starkem quantitativem Forschungshintergrund. Praktische Erfahrungen im Umgang mit großen genetischen Datensätzen und in der Entwicklung statistischer Methoden sind wünschenswert.

DAS INSTITUT PASTEUR

Das Institut Pasteur ist ein international renommiertes Zentrum für biomedizinische Forschung, das sich in vielen Disziplinen auszeichnet. Der 1887 von Louis Pasteur gegründete Campus im Zentrum von Paris beherbergt über 1.300 Forscher und 300 Doktoranden aus über 60 Nationalitäten. Es ist eine kreative und inspirierende Umgebung voller Fachwissen und Möglichkeiten, sich zu vernetzen und zu lernen. Die Abteilung für Computerbiologie beherbergt mehrere Teams und einen Biostatistik-/Bioinformatik-Hub, der über 50 promovierte Ingenieure umfasst, die auf Computerbiologie spezialisiert sind.

WEITERE INFORMATIONEN

Bewerber sollten ihren Lebenslauf, ein Anschreiben mit Angaben zur Forschungserfahrung und Kontaktinformationen für zwei oder mehr Referenzen an Dr. Hugues Aschard ([email protected]) senden.

Weitere Informationen zum Institut Pasteur und der Abteilung für statistische Genetik finden Sie hier http://www.pasteur.fr/en und hier https://research.pasteur.fr/en/team/statistical-genetics/.

Bewerber können so früh wie möglich beginnen und werden bis zur Besetzung der Stelle berücksichtigt.


Statistische Genetik

Die folgenden Forscher sind an Statistischen Genetik-Projekten beteiligt, von denen nachfolgend Beispiele aufgeführt sind: David Umbach, Clarice Weinberg, Min Shi.

Beispiele für laufende Projekte sind:

GADGETS: Die Zweigstelle entwickelte eine Methode (Genetic Algorithm for Detecting Genetic Epistasis using Triads or Siblings), um große Suchräume effizient zu erkunden, um Multi-SNP-Interaktionen zu finden. Das Verfahren ist anwendbar auf genetische Studien mit Falleltern-Trias, die die nicht übertragenen Allele der Eltern verwenden, um eine &ldquopseudo-Geschwister-Kontrolle zu erzeugen, oder auf Fall-Geschwister-Studien, die ein nicht betroffenes Geschwister als Kontrolle verwenden. Wir haben es angewendet, um Cluster von SNPs zu identifizieren, die zusammen zu wirken scheinen, um das Risiko des Geburtsfehlers, der Mundspalte, zu erhöhen.

Multilocus-Assoziationsmethoden: Es werden Ansätze benötigt, um die gemeinsamen Effekte mehrerer SNPs und SNPs, die mit mehreren Umweltfaktoren interagieren, effizient zu erfassen, einschließlich Methoden, die robust in Bezug auf das zugrunde liegende genetische Assoziationsmodell und in Bezug auf das Modell sind, das die interaktiven Effekte spezifiziert. Die in Entwicklung befindlichen Methoden sollten sich für die Entdeckung von Interaktionen in Fall-Kontroll-Assoziationsstudien und Familienstudien als nützlich erweisen und sollten in Anwendungen der Pathway-Analyse informativ sein.


Willkommen

Statistische Genetiker am SPH entwickeln statistische Methoden zum Verständnis der genetischen Grundlagen menschlicher Krankheiten und Merkmale. Diese Methoden umfassen umfangreiche Datensätze aus Kandidatengen-, Genom-weiten und Resequenzierungsstudien, wobei sowohl nicht verwandte als auch verwandte Personen verwendet werden. Statistische Genetiker von SPH arbeiten mit anderen Forschern bei SPH und weltweit an Studien zu Krebs, Herzerkrankungen, Diabetes, Atemwegserkrankungen, psychiatrischen Erkrankungen und gesundheitsbezogenen Verhaltensweisen (z. B. Rauchen, Ernährung) zusammen. Sie sind eng mit der Gruppe Program in Quantitative Genomics and Computational Biology and Bioinformatics am SPH verbunden. Die Ausbildung umfasst grundlegende Statistiken Mendelsche und Populationsgenetik Design und Analyse von genetischen Assoziationsstudien Genexpression und epigenetische Marker und Gen-Umwelt-Interaktion.

Studierende mit einem Abschluss in Mathematik, Informatik, Statistik oder einem verwandten Bereich und Interesse an Genetik sind herzlich eingeladen, sich für unsere Doktorats- oder Masterstudiengänge zu bewerben. Doctoral students can apply to either the Department of Epidemiology (through the PhD in Population Health Sciences [area of interest: Genetic Epidemiology and Statistical Genetics]) or to Department of Biostatistics. Some admission criteria, such as quality of fit with each department or quality of fit with specific mentors in each department, may vary across departments. In addition, the availability of funding may also vary across departments.

Postdoctoral training positions are also available, with support coming from individual Principal Investigators or appropriate training grants. Prospective students or postdoctoral fellows with an interest in statistical genetics at SPH may contact Alkes Price.


Faculty

The StatGen Training Program equips a new generation of researchers with the necessary skills to work at the interface of statistics and genetics for biomedical genetic research of today and the future. Technological advancements in genetics and genomics have lead to a wealth of data, facilitating a fundamental change in the landscape of biomedical research. A new generation of scientists who have a strong foundation in statistics as well as interdisciplinary training in genetics is urgently needed to effectively analyze and interpret these data.

  • Complete the program curriculum that consists of four core courses: a two-course sequence in statistical genetics and two courses in genomics.
  • Select and be paired with a world-class research mentor in the training program and conduct research in the lab of the mentor.
  • Fully engage in the collaborative and multidisciplinary scientific environment for biomedical research in genetics at the University of Washington, providing them with extensive knowledge about cutting-edge biomedical research in genetics.

Statistical Genetics Faculty

Faculty who would like to be considered for addition to the StatGen Training Program should send a CV and brief statement explaining why they would like to be added to the program to Timothy Thornton.

PI Contact:

Training Faculty

    : Medical Genetics : Medical Genetics, Genome Sciences : Biostatistics : Anthropology : Genome Sciences, Statistics, Biology : Genome Sciences, Computer Science : Medical Genetics, Genome Sciences : Biology : Biostatistics : Genome Sciences : Biology, Burke Museum : Epidemiology : Basic Sciences, Fred Hutchinson Cancer Research Center : Computational Biology, Fred Hutchinson Cancer Research Center : Biostatistics : Statistics, Biology, Biostatistics : Genome Sciences, Bioengineering : Pathology : Biostatistics : Laboratory Medicine : Biostatistics, Statistics : Biostatistics : Statistics, Genome Sciences, Biostatistics : Biostatistics : Statistics, Biostatistics : Biostatistics, Genome Sciences : Medical Genetics, Biostatistics, Genome Sciences : Biostatistics, Statistics

Lehrplan

Trainees in Biostatistics or Statistics are expected to follow the course sequence in the Biostatistics PhD StatGen Pathway or Statistics PhD StatGen Pathway, respectively. Trainees in other PhD programs are expected to follow and enroll in the statistical genetics certificate program. Below are the courses that StatGen trainees are required to take:

StatGen Core Courses

StatGen Seminar

Training in Ethics

  • BIOST 532: Ethical Issues for Biostatisticians
  • GENOME 580: Ethics
  • The Biomedical Research Integrity Series.

Current Trainees

  • Hanley Kingston
  • Amanda Kunkle
  • Nandana Rao
  • Seth Temple
  • Zorian Thornton

So bewerben Sie sich

  • Completed application form.
  • Current CV. CV should include any publications
  • Letter of Interest/Statement of Purpose
  • Provide a brief description (1-2 pages) of your research interest and goals, and how they relate to STATGEN

The Statistical Genetics Training program is funded by an NIH/NIGMS T32 Training Grant: T32 GM081062.


Doctor of Philosophy

The Doctor of Philosophy is an advanced degree, preparing you for careers such as independent investigators, collaborative biostatisticians, and educators. A PhD in Biostatistics opens many opportunities for work in academia, government, and private industry.

Learn statistical theory, skills and techniques, and develop theory and applications of biostatistics. You will learn from internationally recognized faculty in UW’s Department of Biostatistics, and complete course work in biostatistics, statistics, and one or more public health or biomedical fields. As a PhD student, you will undertake research that advances the field of biostatistics and write a dissertation presenting your work. Earning a PhD in Biostatistics opens many opportunities for careers in academia, government, non-profit organizations, and private industry.


Schau das Video: Statistik - Überblick (Januar 2022).