Ist die Überlappung zwischen zwei Genexpressionsproben signifikant?

Ich habe ein Experiment durchgeführt, um die Reaktion einer Hefe (die 5000 Gene enthält) auf durch Hitzeschock verursachten Stress zu untersuchen. Ich habe eine Liste von 48 Genen, die bei 37 ° C überexprimiert werden, und eine andere Liste von 145 Genen, die bei 42 ° C überexprimiert werden. Es gibt 38 Gene, die in beiden überexprimiert sind.

Durch Zufall habe ich erwartet, dass nur 1 Gen in beiden überexprimiert ist. Wie kann ich berechnen, ob die Überlappung, die ich erhalten habe, signifikant ist? Wie kann ich den Wert erhalten? Ich weiß nichts über biostatistische oder mathematische Software. Vielen Dank!!! Jede Hilfe wird sehr willkommen sein :) $p$

statistical-significance microarray

— Laura
quelle

Sie können ein Venn-Diagramm erstellen, um die Überlappung aufzuzeigen.

— Michael R. Chernick

Aber wie kann ich den p-Wert berechnen?

— Laura

Ein p-Wert wird immer in Bezug auf eine Hypothese berechnet. Welche Hypothese möchten Sie hier untersuchen? Dass unterschiedliche Gene bei unterschiedlichen Temperaturen überexprimiert werden?

— MånsT

Die Hypothese ist, dass die bei 37 ° C überexprimierten Gene auch bei 42 ° C überexprimiert werden. Und es scheint, dass dies der Fall sein könnte, weil 38 Gene (von insgesamt 48 Genen) sowohl bei 37 ° C als auch bei 42 ° C überexprimiert sind.

— Laura

Dies ist keine statistische Hypothese, die getestet werden kann. Ich glaube nicht, dass Sie nach p-Werten suchen. Ich denke, Sie möchten den Grad der Überlappung messen.

— Michael R. Chernick

Antworten:

Der Tisch sieht so aus

                37 deg C
42 deg C     yes      no
yes          38       97
no           10      4855

Ja und Nein beziehen sich auf Fälle, die überexprimiert wurden oder nicht. Ich habe den genauen Fisher-Test in SAS ausgeführt. Die Ausgabe wird unten eingefügt:

Laura Gene expression data 


The FREQ Procedure


Statistics for Table of Group by expressed

Fisher's Exact Test 
Cell (1,1) Frequency (F) 4855 
Left-sided Pr <= F 1.0000 
Right-sided Pr >= F 4.776E-53 

Table Probability (P) 8.132E-51 
Two-sided Pr <= P 4.776E-53 
Sample Size = 5000

Sie sehen hier, dass der p-Wert für den Fisher's Exact-Test sehr klein ist und weit unter 0,0001 liegt.

Dies zeigt genau, was Sie angegeben haben, dass die beobachteten 38, die bei beiden Temperaturen überexprimiert wurden, weitaus größer sind als das, was Sie unter Unabhängigkeit erwarten, was, wie Sie angegeben haben, 1,296 betragen würde.

— Michael R. Chernick
quelle

Der genaue Test, auf den sich Michael bezieht, ist wahrscheinlich die Art und Weise, die ich zur Lösung des Problems empfehlen würde (wenige Annahmen). Als Referenz, würde der entsprechende gemeinsame statistische Test sein Test der Unabhängigkeit . $\chi^2$

— russellpierce
quelle

Der Chi-Quadrat-Test ist ebenfalls nichtparametrisch, erfordert jedoch eine asymptotische Theorie. Der Fisher-Test hat eine zusätzliche Annahme fester Ränder, die der Chi-Quadrat- und andere Kontingenztabellentests nicht annehmen.

— Michael R. Chernick

@Laura Du hattest ein genau definiertes Testproblem. Es tut mir leid, dass es so viele Diskussionen gekostet hat, um es zu finden.

— Michael R. Chernick

Vielen Dank Michael! Jetzt kenne ich den Test, den ich verwenden muss, und wie ich die Daten eingebe. Nur noch zwei kleine Fragen: Gibt es einen Online-Fischer-Exakt-Testrechner? Weil ich keine SAS habe und mehr p-Wert berechnen möchte. Und was ist in Ihrer Tabelle der p-Wert, den ich berücksichtigen muss? Vielleicht die Zwei-Seiten-Wahrscheinlichkeit? Danke noch einmal!!! :)

— Laura

Laura ... geh mit dem zweiseitigen Pr. quantitativeskills.com/sisa/statistics/fishrhlp.htm (Link "Gehe zum Verfahren"). Dem Online-Rechner fehlt die Genauigkeit, um einen so niedrigen p-Wert zu erhalten.

— Russellpierce