Mindeststichprobengröße für ungepaarten T-Test


16

Gibt es eine "Regel" zur Bestimmung des Mindeststichprobenumfangs, der erforderlich ist, damit ein t-Test gültig ist?

Zum Beispiel muss ein Vergleich zwischen den Mitteln von 2 Populationen durchgeführt werden. Es gibt 7 Datenpunkte von einer Population und nur 2 Datenpunkte von der anderen. Leider ist das Experiment sehr teuer und zeitaufwendig, und es ist nicht möglich, mehr Daten zu erhalten.

Kann ein T-Test verwendet werden? Warum oder warum nicht? Bitte machen Sie nähere Angaben (die Populationsabweichungen und -verteilungen sind nicht bekannt). Wenn ein t-Test nicht verwendet werden kann, kann ein nicht parametrischer Test (Mann Whitney) verwendet werden? Warum oder warum nicht?


2
Diese Frage deckt ähnliches Material ab und ist für die Betrachter dieser Seite von Interesse: Gibt es eine Mindeststichprobengröße, die erforderlich ist, damit der T-Test gültig ist? .
gung - Wiedereinsetzung von Monica

Siehe auch diese Frage, in der das Testen mit noch kleineren Probengrößen erörtert wird.
Glen_b -Reinstate Monica

Antworten:


8

Ich würde empfehlen, den nicht-parametrischen Mann-Whitney- U- Test anstelle eines ungepaarten t- Tests zu verwenden .

Es gibt keine absolute Mindeststichprobengröße für den t- Test, aber wenn die Stichprobengrößen kleiner werden, reagiert der Test empfindlicher auf die Annahme, dass beide Stichproben aus Populationen mit einer Normalverteilung stammen. Bei so kleinen Stichproben, insbesondere bei einer Stichprobe von nur zwei, müssen Sie sehr sicher sein, dass die Populationsverteilungen normal waren - und dies muss auf externem Wissen beruhen, da solche kleinen Stichproben an sich nur sehr wenige Informationen über sich geben die Normalität oder andere ihrer Verteilungen. Aber Sie sagen, dass "die Populationsabweichungen und -verteilungen nicht bekannt sind" (meine Kursivschrift).

Der Mann-Whitney- U- Test erfordert keine Annahmen über die parametrische Form der Verteilungen, sondern nur die Annahme, dass die Verteilungen der beiden Gruppen unter der Nullhypothese gleich sind.


6
Keine gute Empfehlung für extrem kleine Stichprobengrößen. Bei 7 und 2 Stichproben schlägt der U-Test fehl, egal wie groß die Differenz zwischen dem Mittelwert der Gruppen ist. Schauen Sie sich meine Antwort als Beispiel an.
AlefSin

2
Ich würde zweitens, was @ AlefSin sagt. Wenn es für Sie wichtig ist, gültige Schlussfolgerungen zu ziehen (und nicht nur einen p-Wert zu erhalten), sind die Annahmen, die Sie treffen können, umso besser, je vernünftiger sie sind. Wenn es vernünftige Hintergrundinformationen gibt, können Sie auch noch weitere Annahmen hinzufügen, wenn Sie Ihre Analyse in einem Bayes'schen Framework durchgeführt haben.
Rasmus Bååth

2
Ein Problem ist, dass der Wilcoxon-Mann-Whitney bei so kleinen Stichprobengrößen keine typischen Signifikanzniveaus erreichen kann. Bei Stichprobengrößen von 7 und 2 erhalten Sie nie ein signifikantes Ergebnis bei 5%, egal wie offensichtlich der Unterschied ist. Betrachten Sie (1.018,1.031,1.027,1.020,1.021,1.019,1.024) vs (713,2, 714,5) - auf dem 5% -Niveau nicht signifikant!
Glen_b -Reinstate Monica

3
Das heißt, wenn man und , gibt es ein sehr gutes Argument, dass man sich vielleicht überlegen sollte, ob ein 5% -Test überhaupt Sinn macht. Eine richtige Einschätzung der Kosten der beiden Fehlertypen kann zu einer völlig unterschiedlichen Auswahl führen. n 2 = 2n1=7n2=2
Glen_b -Reinstate Monica

6

(Haftungsausschluss: Ich kann heute nicht gut tippen: meine rechte Hand ist gebrochen!)

Entgegen dem Rat, in anderen Antworten einen nichtparametrischen Test zu verwenden, sollten Sie berücksichtigen, dass diese Methoden für extrem kleine Stichprobengrößen nicht sehr nützlich sind. Es ist leicht zu verstehen, warum: In Studien mit extrem geringer Größe kann kein Unterschied zwischen Gruppen festgestellt werden, es sei denn, eine große Effektgröße wird beobachtet. Nichtparametrische Methoden berücksichtigen jedoch nicht die Größe des Unterschieds zwischen den Gruppen. Selbst wenn der Unterschied zwischen den beiden Gruppen sehr groß ist, wird ein nicht-parametrischer Test bei einer winzigen Stichprobengröße die Nullhypothese immer nicht ablehnen.

Betrachten Sie dieses Beispiel: Zwei Gruppen, Normalverteilung, gleiche Varianz. Gruppe 1: Durchschnitt 1,0, 7 Proben. Gruppe 2: Durchschnitt 5, 2 Proben. Es gibt einen großen Unterschied zwischen den Durchschnittswerten.

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

Der berechnete p-Wert ist 0,05556, was die Nullhypothese (bei 0,05) nicht zurückweist. Wenn Sie nun den Abstand zwischen den beiden Mitteln um den Faktor 10 erhöhen, erhalten Sie denselben p-Wert:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

Jetzt lade ich Sie ein, die gleiche Simulation mit t-Test zu wiederholen und die p-Werte bei großen (durchschnittlich 5 vs 1) und großen (durchschnittlich 50 vs 1) Unterschieden zu beobachten.


5

Es gibt keine Mindeststichprobengröße für einen T-Test. Der T-Test war in der Tat für kleine Proben ausgelegt. In den alten Tagen, als Tabellen gedruckt wurden, sahen Sie T-Test-Tabellen für sehr kleine Proben (gemessen mit df).

Natürlich ist, wie bei anderen Tests, bei einer kleinen Stichprobe nur ein ziemlich großer Effekt statistisch signifikant.


Aber wird das Gegenteil auch ein Problem sein? Konnten also zufällig erfasste Ausreißer dazu führen, dass die Nullhypothese fälschlicherweise zurückgewiesen wurde? Oder ist geringer Stromverbrauch zum Erkennen von Unterschieden ein größeres Problem? In dieser besonderen Situation sehe ich einen signifikanten Unterschied zwischen den Mitteln, weiß aber nicht, wie sehr ich ihm "vertrauen" soll.
Johnny Puzzled

2
Mit n = 2 sind Sie definitiv anfällig für den Einfluss von Ausreißern - Ausreißern in der Bevölkerung; Wie kann eine Stichprobe von 2 einen Ausreißer innerhalb der Stichprobe haben? :-) Ich würde in dieser Situation keine Inferenzstatistik ausprobieren. Die Aussichten, an die "Wahrheit" heranzukommen, sind schlecht, und Sie sind offen für Kritik.
Rolando2

2
Der Grund dafür, dass das Konfidenzintervall groß ist, ist, dass Sie möglicherweise einen Ausreißer haben. Bei t-test wird jedoch weiterhin davon ausgegangen, dass die Stichproben aus einer normalen Grundgesamtheit stammen.
Peter Flom - Reinstate Monica

2

Ich gehe davon aus, dass Sie 7 Datenpunkte aus einer Gruppe und 2 Datenpunkte aus einer zweiten Gruppe haben, die beide Teilmengen von Populationen sind (z. B. Teilmenge von Männern und Teilmenge von Frauen).

Die Mathematik für den T-Test finden Sie auf dieser Wikipedia-Seite . Wir gehen von einem unabhängigen Zwei-Stichproben-T-Test mit ungleichen Stichprobengrößen (7 vs. 2) und ungleichen Varianzen aus. Sie sehen, dass die Berechnung auf Mittelwerten und Standardabweichungen basiert. Mit nur 7 Probanden in einer Gruppe und 2 Probanden in einer anderen können Sie nicht davon ausgehen, dass Sie gute Schätzungen für den Mittelwert oder die Standardabweichung haben. Für die Gruppe mit 2 Probanden ist der Mittelwert einfach der Wert, der genau in der Mitte der beiden Datenpunkte liegt, sodass er nicht gut geschätzt wird. Bei der Gruppe mit 7 Probanden wirkt sich die Stichprobengröße stark auf die Varianzen aus (und damit auf die Standardabweichungen, die die Quadratwurzel der Varianz sind), da Extremwerte bei einer kleineren Stichprobe einen viel stärkeren Effekt haben.

Wenn Sie sich beispielsweise das grundlegende Beispiel auf der Wikipedia-Seite für die Standardabweichung ansehen, werden Sie feststellen, dass die Standardabweichung 2 beträgt und die Varianz (Quadrat der Standardabweichung) daher 4 beträgt. Wenn wir aber nur die ersten beiden Datenpunkte hätten (die 9 und die 1), die Varianz wäre 10/2 = 5 und die Standardabweichung wäre 2,2 und wenn wir nur die letzten beiden Werte (die 4 und die 16) hätten, wäre die Varianz 20/2 = 10 und die Standardabweichung wäre 3,2. Wir verwenden immer noch dieselben Werte, nur weniger, und wir können die Auswirkungen auf unsere Schätzungen sehen.

Dies ist das Problem bei der Verwendung von Inferenzstatistiken mit kleinen Stichprobengrößen. Ihre Ergebnisse werden besonders stark durch Stichproben beeinflusst.

Update: Gibt es einen Grund, warum Sie die Ergebnisse nicht einfach nach Thema melden und anzeigen können, dass dies eine Erkundungsarbeit ist? Mit nur zwei Fällen sind die Daten einer Fallstudie sehr ähnlich, und diese sind beide (1) wichtig für das Aufschreiben und (2) akzeptierte Praxis.


Danke Michelle. Das ist interessant und nützlich zu wissen. Was würden Sie jedoch aus praktischer Sicht empfehlen? Wie geht man in dieser Situation am besten vor? Vielen Dank!
Johnny Puzzled

Hallo Johnny, verwirrt. Ohne weitere Informationen zu Ihrer genauen Situation kann ich Ihnen keine Anleitung geben.
Michelle

Welche Informationen werden benötigt?
Johnny Puzzled

1
Hallo zusammen, weitere Informationen zu Ihrem Studiendesign, z. B. wie Ihre Daten lauten, wie Sie sie gesammelt haben, wie Ihre Gruppen lauten und wie die Beobachtungen ausgewählt wurden. Ich weiß nur, dass Sie ein Experiment mit 9 Beobachtungen (Menschen - Ratten - Neuronen - Käseblöcke - Strahlungsfrequenzen) durchgeführt haben, die aus zwei Gruppen stammen.
Michelle

Nehmen wir an, der durchschnittliche Blutfluss zur weißen Substanz im Gehirn wurde beim Menschen mithilfe der MRT gemessen. Die Gruppen sind Kontrollpersonen (7 Personen) und alters- / geschlechtsspezifische Patienten mit einer bestimmten Störung (2 Personen).
Johnny Puzzled

1

Interessanter verwandter Artikel: 'Verwenden des Student-T-Tests mit extrem geringen Stichprobengrößen' JCF de Winter (in Practical Assesment, Research & Evaluation) http://goo.gl/ZAUmGW


0

Ich würde empfehlen, die Schlussfolgerungen, die Sie erhalten, sowohl mit dem T-Test als auch mit dem Mann-Whitney-Test zu vergleichen und auch Boxplots und die Profilwahrscheinlichkeit des Mittelwerts jeder Population zu betrachten.


Hallo @Demian, ich bin mir nicht sicher, ob selbst ein Boxplot hilfreich ist, wenn eine Gruppe eine Stichprobengröße von 2 hat. Ansonsten denke ich, dass Boxplots besonders hilfreich sind, um kontinuierliche Daten über Gruppen hinweg zu visualisieren.
Michelle

0

Stata 13 / SE-Code für einen Bootstrap-TestDa ein an kleinen Stichproben durchgeführter t-Test wahrscheinlich nicht die Anforderungen an den t-Test erfüllt (hauptsächlich die Normalität der Populationen, aus denen die beiden Stichproben stammen), würde ich empfehlen, einen Bootstrap-t-Test (mit ungleichen Abweichungen) nach Efron B durchzuführen. Tibshirani Rj. Eine Einführung in den Bootstrap. Boca Raton, FL: Chapman & Hall / CRC, 1993: 220 & ndash; 224. Der Code für einen Bootstrap-Test für die von Johnny Puzzled in Stata 13 / SE bereitgestellten Daten ist im obigen Bild angegeben.


Ihre Antwort weist schwerwiegende Formatierungsprobleme auf. Haben Sie etwas dagegen, sie zu bearbeiten?
Amöbe sagt Reinstate Monica

Ich habe versucht, Formatierungsprobleme in der überprüften Version der Antwort zu lösen. Vielen Dank an amoeba für den Hinweis.
Carlo Lazzaro

0

Bei einer Stichprobengröße von 2 ist es möglicherweise das Beste, sich die einzelnen Zahlen selbst anzusehen und sich nicht einmal mit statistischen Analysen zu beschäftigen.


1
Derzeit liest sich dies eher wie ein Kommentar. Dies ist ein guter Punkt, um eine vernünftige Antwort auf das ursprüngliche Problem zu finden. Es ist jedoch zu erwarten, dass eine Diskussion über das Problem selbst stattfindet, auch wenn letztendlich die Schlussfolgerung gezogen wird, dass es sinnvoller ist, etwas anderes zu tun.
Glen_b -Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.