Information

1.5: Einführung in Algorithmen und probabilistische Inferenz - Biologie


1. Betrachten Sie beispielsweise die folgende PWM für ein Motiv der Länge 4:

Wir sagen, dass dieses Motiv Sequenzen der Länge 4 erzeugen kann. PWMs gehen typischerweise davon aus, dass die Verteilung einer Position nicht von der Basis einer anderen Position beeinflusst wird. Beachten Sie, dass jeder Position eine Wahrscheinlichkeitsverteilung über die Nukleotide zugeordnet ist (sie summieren sich zu 1 und sind nicht negativ).

2. Wir können auch die Hintergrundverteilung von Nukleotiden modellieren (die Verteilung, die über das Genom gefunden wird):

Beachten Sie, dass die Wahrscheinlichkeiten für A und T gleich sind und die Wahrscheinlichkeiten von G und C gleich sind. Dies ist eine Folge der Komplementaritäts-DNA, die dafür sorgt, dass die Gesamtzusammensetzung von A und T, G und C im Genom insgesamt gleich ist.

3. Betrachten Sie die Folge (S = GCAA.)

  • Die Wahrscheinlichkeit, dass das Motiv diese Sequenz erzeugt, ist [P(S|M) = 0,4 × 0,25 × 0,1 × 1,0 = 0,01. keine Nummer]
  • Die Wahrscheinlichkeit, dass der Hintergrund diese Sequenz erzeugt [P (S|B) = 0,4 × 0,4 × 0,1 × 0,1 = 0,0016. keine Nummer]

4. Alleine ist das nicht besonders interessant. Bei einem gegebenen Bruchteil von Sequenzen, die durch das Motiv erzeugt werden, z.B. P(M) = 0.1, und unter der Annahme, dass alle anderen Sequenzen vom Hintergrund erzeugt werden (P(B) = 0.9), können wir die Wahrscheinlichkeit berechnen, dass das Motiv die Sequenz mit der Bayes-Regel erzeugt hat:

[egin{align*} P(M|S) &= frac{P(S|M)P(M)}{P(S)} [4pt] &= frac{P(S| M)P(M)}{P(S|B)P(B)+P(S|M)P(M)} [4pt] &= frac{0,01 mal 0,1}{0,0016 mal 0,9 + 0,01 imes 0,1} = 0,40984 end{align*}]


Schau das Video: Einführung in die Kausale Inferenz (Januar 2022).