Berechnung der Wahrscheinlichkeit einer Überlappung der Genliste zwischen einer RNA-Sequenz und einem ChIP-Chip-Datensatz

13

Hoffentlich kann mir jemand in diesen Foren bei diesem Grundproblem in Genexpressionsstudien helfen.

Ich habe eine Tiefensequenzierung eines experimentellen und eines Kontrollgewebes durchgeführt. Ich erhielt dann fache Anreicherungswerte von Genen in der experimentellen Probe über Kontrolle. Das Referenzgenom hat ~ 15.000 Gene. 3.000 von 15.000 Genen sind in meiner interessierenden Stichprobe im Vergleich zur Kontrolle über einem bestimmten Grenzwert angereichert.

Also: A = Gesamtgenpopulation = 15.000 B = RNA-Seq-angereicherte Subpopulation = 3.000.

In einem früheren ChIP-Chip-Experiment habe ich 400 Gene gefunden, die mit ChIP-Chip angereichert sind. Von den 400 ChIP-Chip-Genen gehören 100 Gene zur Gruppe der 3.000 angereicherten RNA-Seq-Transkripte.

Also: C = Gesamtzahl der mit ChIP-Chips angereicherten Gene = 400.

Wie hoch ist die Wahrscheinlichkeit, dass meine 100 ChIP-Chip-Gene allein durch Zufall mit RNA-Seq angereichert werden? Mit anderen Worten, was ist die umsichtigste Methode, um zu berechnen, ob meine beobachtete Überlappung zwischen B und C (100 Gene) besser ist als die, die allein durch Zufall erzielt wurde? Nach dem, was ich bisher gelesen habe, ist der beste Weg, dies zu testen, die Verwendung der hypergeometrischen Verteilung.

Ich habe einen Online-Rechner (stattrek.com) verwendet, um einen hypergeometrischen Verteilungstest mit den folgenden Parametern einzurichten: - Popgröße = 15.000 - Anzahl der Erfolge in der Bevölkerung = 3.000 - Stichprobengröße = 400, - Anzahl der Erfolge in der Stichprobe = 100. Ich erhalte Folgendes für die hypergeometrische Wahrscheinlichkeit P (x = 100) = 0,00224050636447747

Die tatsächliche Anzahl der Gene, die sich zwischen B und C überlappen, beträgt 100. Ist dies besser als nur durch Zufall? Sieht nicht so aus, als ob die Wahrscheinlichkeit, dass ein Gen angereichert wird, 1: 5 beträgt (3.000 von 15.000). Deshalb verstehe ich nicht, warum mein oben berechnetes P (x = 100) 0,0022 beträgt. Dies entspricht einer Wahrscheinlichkeit von 0,2%, dass die Überlappung zufällig auftritt. Sollte das nicht viel höher sein?

Wenn ich 400 zufällige Gene aus der großen Liste von 15.000 heraussuchen würde, würde erwartet, dass 80 dieser Gene allein durch Zufall angereichert werden (1: 5). Die Anzahl der Gene, die sich tatsächlich überlappen, beträgt 100, dies ist also nur geringfügig besser als zufällig.

Ich habe auch versucht, eine Lösung mit den Dhyper- oder Phyper-Funktionen in R zu finden (unter Verwendung dessen, was ich in einem anderen Beitrag gesehen habe): A = alle Gene im Genom (15.000) B = RNA-Seq-angereicherte Gene (3.000) C = ChIP -chip-angereicherte Gene (400) Hier ist die R-Eingabe / Ausgabe (angepasst aus einem vorherigen Stapelaustausch-Beitrag):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36

Ich bin mir nicht sicher, wie ich diese Zahlen interpretieren soll. Ich glaube, 2.36e-36 ist die Wahrscheinlichkeit, dass B und C allein durch Zufall eine vollständige Überlappung erhalten? Dies macht jedoch keinen Sinn, da diese Wahrscheinlichkeit viel näher an 1: 5 liegt. Wenn ich mit 15.000 Genen beginne, werden 3.000 angereichert. Wenn ich mit 400 ChIP-Chip-Genen beginne, sollten 80 von ihnen aufgrund der 1: 5-Wahrscheinlichkeit einer Anreicherung in diesem Datensatz allein in der RNA-Seq angereichert werden.

Was ist der richtige Weg, um den p-Wert gemäß der hypergeometrischen Verteilung für die Überlappung von B und C zu berechnen?

— stlandroidfan
quelle

14

Sie sind nah dran, wenn Sie dhyperund verwenden phyper, aber ich verstehe nicht, woher 0:2und woher Sie -1:2kommen.

Der gewünschte p-Wert ist die Wahrscheinlichkeit, 100 oder mehr weiße Kugeln in einer Probe der Größe 400 aus einer Urne mit 3000 weißen Kugeln und 12000 schwarzen Kugeln zu erhalten. Hier sind vier Möglichkeiten, dies zu berechnen.

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

Diese ergeben 0,0078.

dhyper(x, m, n, k)gibt die Wahrscheinlichkeit des genauen Zeichnens an x. In der ersten Zeile fassen wir die Wahrscheinlichkeiten für 100 - 400 zusammen; In der zweiten Zeile nehmen wir 1 minus die Summe der Wahrscheinlichkeiten von 0 - 99.

phyper(x, m, n, k)gibt die Wahrscheinlichkeit an, xweniger zu bekommen, phyper(x, m, n, k)ist also die gleiche wie sum(dhyper(0:x, m, n, k)).

Das lower.tail=FALSEist etwas verwirrend. phyper(x, m, n, k, lower.tail=FALSE)ist das gleiche wie 1-phyper(x, m, n, k)und ebenso die Wahrscheinlichkeit von x+1oder mehr. [Ich erinnere mich nie daran und muss es daher immer überprüfen.]

$\ge$

max(dhyper(0:400, 3000, 12000, 400)) $\sim$

Hier ist ein Bild der hypergeometrischen Verteilung in diesem Fall. Sie können sehen, dass es bei 80 zentriert ist (20% von 400) und dass 100 ziemlich weit draußen im rechten Schwanz liegt. Geben Sie hier die Bildbeschreibung ein

— Karl
quelle

Vielen Dank für Ihre Hilfe. Ich verstehe die Logik hinter Ihrer Antwort. Aber wie erkläre ich einer Gruppe von Biologen, dass dies größer ist als die Überlappung, die allein aufgrund des Zufalls beobachtet wird? Sie werden sagen, dass ich eine 1: 5-Chance auf Überlappung habe. Ist meine Überlappung signifikant, weil bei einer Stichprobengröße von 400 Bällen (von insgesamt 15.000 Bällen) meine Chance, einen weißen Ball zu erhalten, tatsächlich geringer als 1: 5 ist, weil ich eine kleinere Population (nicht die gesamten 15.000) beprobe? Dies ist nicht sinnvoll, da trotz 400 <15.000 immer noch ein Verhältnis von Weiß zu Schwarz von 1: 5 besteht. Macht das Sinn?

— Stlandroidfan

@stlandroidfan - Ich verstehe nicht, was Sie verwirrend finden. Ich habe eine Figur hinzugefügt; Hilft das?

— Karl

0

Betrachten Sie es so. Wenn Sie es als Binomial angenommen haben, was vielleicht nicht korrekt ist, aber es sollte ziemlich ungefähr sein. Ihr Sigma ^ 2 ist .8 * .2 * 400 = 64, dann ist Sigma = 8. Also Von 80 auf 100 sind 2,5 Standardabweichungen gegangen. Dies ist ziemlich bedeutsam. Es sollte einen kleinen p-Wert haben.

— Adam
quelle

Danke für deine Antwort. Hypergeometrische Verteilungen werden in der Regel häufiger für Überlappungen von Genlisten verwendet, als ich sie in der Literatur gesehen habe. Die Frage ist, wie hoch die Wahrscheinlichkeit ist, 100 oder mehr weiße Kugeln in einer Probe der Größe 400 aus einer Urne mit 3000 weißen und 12000 schwarzen Kugeln zu erhalten. Ich glaube, ich bin immer noch ratlos darüber, wie ich das einer Gruppe von Biologen erklären soll. Die Art, wie sie es sehen, ist 3000: 12000 ist eine 1: 5 Chance von Weiß: Schwarz. Bei einer Stichprobe von 400 sollten 80 weiß sein. Wie kommt es also, dass die Wahrscheinlichkeit, 100 oder mehr zu erreichen, so viel niedriger als 20% ist (1 zu 5)?

— Stlandroidfan