Hier sind vier verschiedene Zahlenreihen:
A = {95,47, 87,90, 99,00}
B = {79,2, 75,3, 66,3}
C = {38,4, 40,4, 32,8}
D = {1,8, 1,2, 1,1}
Mit einem t-Test mit zwei Stichproben ohne Annahme gleicher Varianzen vergleiche ich B, C und D mit A und erhalte die folgenden p-Werte:
0,015827 (A gegen B)
0,000283 (A gegen C)
0,001190 (A gegen D)
Ich finde es seltsam, dass der p-Wert aus dem AD-Test schlechter ist als der AC-Test: Der Unterschied zwischen den Mitteln ist deutlich größer UND die Varianz von D ist viel geringer als die Varianz von C. Intuitiv (zumindest für meine Intuition) ) sollten diese beiden Tatsachen den p-Wert senken.
Könnte jemand erklären, ob dies ein gewünschtes oder erwartetes Verhalten des T-Tests ist oder ob es mehr mit meinem speziellen Datensatz zu tun hat (extrem niedrige Stichprobengröße vielleicht?). Ist der T-Test für diesen bestimmten Datensatz ungeeignet?
Aus rein rechnerischer Sicht scheint der Grund für einen schlechteren p-Wert die Freiheitsgrade zu sein, die im AD-Vergleich 2,018 betragen, während sie im AC-Vergleich 3,566 betragen. Aber wenn Sie nur diese Zahlen gesehen hätten, würden Sie nicht glauben, dass es im Vergleich zu AC stärkere Beweise dafür gibt, die Nullhypothese im AD-Fall abzulehnen?
Einige könnten vorschlagen, dass dies hier kein Problem ist, da alle p-Werte sowieso ziemlich niedrig sind. Mein Problem ist, dass diese 3 Tests Teil einer Reihe von Tests sind, die ich durchführe. Nach der Korrektur mehrerer Tests führt der AD-Vergleich nicht zum Schnitt, während der AC-Vergleich dies tut. Stellen Sie sich vor, Sie zeichnen diese Zahlen (sagen wir Balkendiagramme mit Fehlerbalken, wie es Biologen oft tun) und versuchen zu rechtfertigen, warum C sich signifikant von A unterscheidet, D aber nicht ... nun, ich kann nicht.
Update: warum das wirklich wichtig ist
Lassen Sie mich klarstellen, warum diese Beobachtung einen großen Einfluss auf die Interpretation früherer Studien haben könnte. In der Bioinfomatik habe ich gesehen, dass der t-Test auf kleine Probengrößen in großem Maßstab angewendet werden kann (denken Sie an die unterschiedliche Genexpression von Hunderten oder Tausenden von Genen oder an die Wirkung vieler verschiedener Medikamente auf eine Zelllinie mit nur 3-5 Replikaten ). Das übliche Verfahren besteht darin, viele t-Tests durchzuführen (einen für jedes Gen oder Arzneimittel), gefolgt von einer Korrektur mehrerer Tests, normalerweise FDR. Angesichts der obigen Beobachtung des Verhaltens des Welch-T-Tests bedeutet dies, dass einige der besten Fälle systematisch herausgefiltert werden. Obwohl die meisten Leute die tatsächlichen Daten für die Vergleiche oben auf ihrer Liste betrachten (diejenigen mit den besten p-Werten), kenne ich niemanden, der die Liste aller Vergleiche durchsehen wird, bei denen die Nullhypothese nicht war. t abgelehnt.