Hoffentlich kann mir jemand in diesen Foren bei diesem Grundproblem in Genexpressionsstudien helfen.
Ich habe eine Tiefensequenzierung eines experimentellen und eines Kontrollgewebes durchgeführt. Ich erhielt dann fache Anreicherungswerte von Genen in der experimentellen Probe über Kontrolle. Das Referenzgenom hat ~ 15.000 Gene. 3.000 von 15.000 Genen sind in meiner interessierenden Stichprobe im Vergleich zur Kontrolle über einem bestimmten Grenzwert angereichert.
Also: A = Gesamtgenpopulation = 15.000 B = RNA-Seq-angereicherte Subpopulation = 3.000.
In einem früheren ChIP-Chip-Experiment habe ich 400 Gene gefunden, die mit ChIP-Chip angereichert sind. Von den 400 ChIP-Chip-Genen gehören 100 Gene zur Gruppe der 3.000 angereicherten RNA-Seq-Transkripte.
Also: C = Gesamtzahl der mit ChIP-Chips angereicherten Gene = 400.
Wie hoch ist die Wahrscheinlichkeit, dass meine 100 ChIP-Chip-Gene allein durch Zufall mit RNA-Seq angereichert werden? Mit anderen Worten, was ist die umsichtigste Methode, um zu berechnen, ob meine beobachtete Überlappung zwischen B und C (100 Gene) besser ist als die, die allein durch Zufall erzielt wurde? Nach dem, was ich bisher gelesen habe, ist der beste Weg, dies zu testen, die Verwendung der hypergeometrischen Verteilung.
Ich habe einen Online-Rechner (stattrek.com) verwendet, um einen hypergeometrischen Verteilungstest mit den folgenden Parametern einzurichten: - Popgröße = 15.000 - Anzahl der Erfolge in der Bevölkerung = 3.000 - Stichprobengröße = 400, - Anzahl der Erfolge in der Stichprobe = 100. Ich erhalte Folgendes für die hypergeometrische Wahrscheinlichkeit P (x = 100) = 0,00224050636447747
Die tatsächliche Anzahl der Gene, die sich zwischen B und C überlappen, beträgt 100. Ist dies besser als nur durch Zufall? Sieht nicht so aus, als ob die Wahrscheinlichkeit, dass ein Gen angereichert wird, 1: 5 beträgt (3.000 von 15.000). Deshalb verstehe ich nicht, warum mein oben berechnetes P (x = 100) 0,0022 beträgt. Dies entspricht einer Wahrscheinlichkeit von 0,2%, dass die Überlappung zufällig auftritt. Sollte das nicht viel höher sein?
Wenn ich 400 zufällige Gene aus der großen Liste von 15.000 heraussuchen würde, würde erwartet, dass 80 dieser Gene allein durch Zufall angereichert werden (1: 5). Die Anzahl der Gene, die sich tatsächlich überlappen, beträgt 100, dies ist also nur geringfügig besser als zufällig.
Ich habe auch versucht, eine Lösung mit den Dhyper- oder Phyper-Funktionen in R zu finden (unter Verwendung dessen, was ich in einem anderen Beitrag gesehen habe): A = alle Gene im Genom (15.000) B = RNA-Seq-angereicherte Gene (3.000) C = ChIP -chip-angereicherte Gene (400) Hier ist die R-Eingabe / Ausgabe (angepasst aus einem vorherigen Stapelaustausch-Beitrag):
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
Ich bin mir nicht sicher, wie ich diese Zahlen interpretieren soll. Ich glaube, 2.36e-36 ist die Wahrscheinlichkeit, dass B und C allein durch Zufall eine vollständige Überlappung erhalten? Dies macht jedoch keinen Sinn, da diese Wahrscheinlichkeit viel näher an 1: 5 liegt. Wenn ich mit 15.000 Genen beginne, werden 3.000 angereichert. Wenn ich mit 400 ChIP-Chip-Genen beginne, sollten 80 von ihnen aufgrund der 1: 5-Wahrscheinlichkeit einer Anreicherung in diesem Datensatz allein in der RNA-Seq angereichert werden.
Was ist der richtige Weg, um den p-Wert gemäß der hypergeometrischen Verteilung für die Überlappung von B und C zu berechnen?