Gibt es eine Mindeststichprobengröße, die erforderlich ist, damit der t-Test gültig ist?


71

Ich arbeite derzeit an einem quasi-experimentellen Forschungspapier. Aufgrund der geringen Bevölkerungszahl in dem ausgewählten Gebiet habe ich nur eine Stichprobengröße von 15 und nur 15 entsprechen meinen Kriterien. Ist 15 die minimale Stichprobengröße, die für T-Test und F-Test berechnet werden muss? Wenn ja, wo kann ich einen Artikel oder ein Buch bekommen, um diese kleine Stichprobengröße zu unterstützen?

Dieses Papier wurde bereits am vergangenen Montag verteidigt, und einer der Prüfer bat um eine unterstützende Referenz, da meine Stichprobengröße zu niedrig ist. Er sagte, es hätten mindestens 40 Befragte sein sollen.


4
Eine Stichprobengröße kann wesentlich kleiner als 15 sein, wenn die Annahmen zutreffen. War die Gültigkeit der t-Verteilung der einzige Grund, warum er eine größere Stichprobe vorschlug?
Glen_b

Nur um zu verdeutlichen, welche Art von T-Test führen Sie durch: eine Probe, eine gepaarte Probe oder zwei Proben.
Jeromy Anglim

26
In der Vergangenheit bestand die allererste Demonstration des T-Tests (in der Arbeit von "Student" aus dem Jahr 1908) in einer Anwendung auf Stichprobengrößen der Größe vier . In der Tat ist es der Anspruch des Tests , verbesserte Ergebnisse für kleine Proben zu erzielen: Sobald die Probengröße etwa 40 erreicht, unterscheidet sich der t-Test nicht wesentlich von den Z-Tests, die die Forscher im Laufe des 19. Jahrhunderts angewendet hatten. Sie können eine moderne Version dieses Papiers mit dem Panelmitglied teilen : york.ac.uk/depts/maths/histstat/student.pdf . Weisen Sie auf die Untersuchung in Abschnitt VI, S. 14-18 hin.
whuber

10
Sie sollten sich jedoch überlegen, dass kleine Stichprobengrößen wie 4 funktionieren, da Student qualitativ hochwertige Daten hatte: chemische Labordaten, Experimente, keine Quasi-Experimente. Ihr Hauptproblem ist nicht die Stichprobengröße, sondern die Repräsentativität: Woher wissen Sie, dass Ihre Daten für etwas repräsentativ sind?
kjetil b halvorsen

10
@CzarinaFrancoise Warum sollten wir uns Wissenschaft <10 Jahre alt beschränken?
RioRaider

Antworten:


56

Es gibt keine Mindeststichprobengröße, damit der t-Test gültig ist. Die Gültigkeit setzt voraus, dass die Annahmen für die Teststatistik ungefähr zutreffen. Diese Annahmen beziehen sich auf den Fall einer Stichprobe, dass die Daten normal (oder ungefähr normal) sind, mit dem Mittelwert 0 unter der Nullhypothese und einer Varianz, die unbekannt ist, aber aus der Stichprobe geschätzt wird. In dem Fall mit zwei Stichproben sind beide Stichproben unabhängig voneinander und jede Stichprobe besteht aus iid normalen Variablen, wobei die beiden Stichproben den gleichen Mittelwert und eine gemeinsame unbekannte Varianz unter der Nullhypothese aufweisen. Für die Statistik wird eine gepoolte Varianzschätzung verwendet.

In dem Fall einer Stichprobe ist die Verteilung unter der Nullhypothese ein zentrales t mit n-1 Freiheitsgraden. In den beiden Stichprobenfällen mit Stichprobengrößen n und m, die nicht unbedingt gleich sind, beträgt die Nullverteilung der Teststatistik t mit n + m-2 Freiheitsgraden. Die erhöhte Variabilität aufgrund des geringen Stichprobenumfangs wird in der Verteilung berücksichtigt, die bei geringen Freiheitsgraden, die einem geringen Stichprobenumfang entsprechen, einen stärkeren Schweif aufweist. Es kann also festgestellt werden, dass kritische Werte für die Teststatistik für jede Stichprobengröße ein bestimmtes Signifikanzniveau haben (zumindest für die Größe 2 oder höher).

Das Problem mit der geringen Stichprobengröße liegt in der Teststärke. Der Prüfer hat möglicherweise das Gefühl, dass 15 pro Gruppe nicht groß genug sind, um einen signifikanten Unterschied, z. B. Delta zwischen den beiden Mitteln oder einen Mittelwert größer als Delta im Absolutwert für ein Problem mit einer Stichprobe, zu ermitteln. Das Erfordernis von 40 würde eine Spezifikation einer bestimmten Leistung bei einem bestimmten Delta erfordern, die mit n gleich 40, aber nicht niedriger als 40 erreicht würde.

Ich sollte hinzufügen, dass für den durchzuführenden t-Test die Stichprobe groß genug sein muss, um Ihre Varianz oder Varianz abzuschätzen.


2
Aber ein wichtiger Hinweis ist , dass der Test ist gültig, auch wenn die Daten nicht annähernd normal ist, wenn die Probengröße groß genug ist. Die Begründung ist etwas rund (Slutskys Theorem + t-Verteilung nähert sich der Normalverteilung) und die Begründung für die Verwendung über einen Z-Test lediglich, dass sie in kleineren Stichproben konservativer ist. Aber es ist ein wichtiger Hinweis, dass uns große Stichproben retten können, wenn wir Unnormalitäten vermuten!
Cliff AB

1
@CliffAB Mit "gültig" meine ich, dass "ungefähr das richtige Signifikanzniveau hat, in der Grenze als n \ to \ infty". Im Allgemeinen interessieren sich die Leute jedoch für mehr als die Fehlerrate des Typs I (insbesondere dann, wenn sie bei Stichproben, die möglicherweise größer sind als die zur Verfügung stehende Stichprobengröße, nur annähernd gleich ist). Die asymptotische relative Effizienz kann in der Tat sehr schlecht sein, so dass die Leistung gegenüber kleinen Effekten in großen Proben im Vergleich zu alternativen Möglichkeiten sehr schlecht sein kann, selbst wenn die Fehlerrate von Typ I so wird, wie sie sein sollte.
Glen_b

33

Bei aller Achtung vor ihm weiß er nicht, wovon er spricht. Der T-Test wurde für die Arbeit mit kleinen Proben entwickelt. Es gibt nicht wirklich ein Minimum (vielleicht könnten Sie ein Minimum von 3 für einen T-Test mit einer Stichprobe, IDK, angeben), aber Sie haben Bedenken hinsichtlich einer ausreichenden Leistung bei kleinen Stichproben. Möglicherweise möchten Sie etwas über die Ideen für die Analyse der Kompromissleistung lesen, wenn die mögliche Stichprobengröße wie in Ihrem Fall stark eingeschränkt ist.

Als Referenz, die beweist, dass Sie den T-Test mit kleinen Proben verwenden können, kenne ich keine und bezweifle, dass es eine gibt. Warum sollte jemand versuchen, das zu beweisen? Die Idee ist einfach albern.


6
+1 (an dich und Michael). Interessanterweise brauchen Sie nicht einmal zwei Beobachtungen , um Rückschlüsse zu ziehen, wenn Sie bereit sind, eine Reihe von Annahmen zu treffen!
Andy W

4
Der Grund für den t-Test in kleinen Stichproben ist, dass selbst wenn die Stichproben normal sind und die Standardabweichung nicht bekannt ist, die Normalisierung häufig durch Division der Standardabweichung durch eine Stichprobenschätzung erfolgt. In großen Stichproben wird diese Schätzung nahe genug an der Populationsstandardabweichung liegen, sodass die Teststatistik annähernd normal ist, in kleinen Stichproben jedoch schwerere Schwänze aufweist als normal.
Michael Chernick

5
Die t-Verteilung mit n-1 Freiheitsgraden ist die exakte Verteilung für jede Stichprobengröße n unter der Nullhypothese, und in kleinen Stichproben muss sie anstelle der Normalen verwendet werden, die sich nicht gut annähert. Das eigentliche Problem bei der Stichprobengröße, wie sowohl Gung als auch ich angegeben haben, ist die Leistung. Wenn Sie mit dem Schiedsrichter argumentieren möchten, dass 15 ausreicht, müssen Sie herausfinden, wie groß ein Unterschied sein muss, um als sinnvoll bezeichnet zu werden (das Delta, das ich erwähnt habe), und dann müssen Sie für dieses Delta zeigen, dass die Kraft ausreichend ist, sagen wir 0,80 oder höher .
Michael Chernick

2
@CzarinaFrancoise Über n> = 30, siehe stats.stackexchange.com/questions/2541/…
Stéphane Laurent

2
Das Originalpapier von @gung Student (1908!) beweist, dass Sie den T-Test mit kleinen Mustern verwenden können. (Weitere
Informationen

30

Wie bereits in den Antworten erwähnt, ist das Hauptproblem bei einer kleinen Stichprobengröße die geringe statistische Aussagekraft. Es gibt verschiedene Faustregeln bezüglich der zulässigen statistischen Potenz. Einige Leute sagen, dass eine statistische Aussagekraft von 80% angemessen ist, aber letztendlich ist mehr besser. Es gibt im Allgemeinen auch einen Kompromiss zwischen den Kosten für die Gewinnung von mehr Teilnehmern und dem Vorteil der Gewinnung von mehr statistischer Leistung.

Sie können bei Test mit einer einfachen Funktion in R statistische Aussagekraft bewerten power.t.test.

Der folgende Code liefert die statistische Leistung für eine Stichprobengröße von 15, einen t-Test mit einer Stichprobe, Standard und drei verschiedene Effektgrößen von 0,2, 0,5, 0,8, die manchmal als bezeichnet wurden kleine, mittlere und große Effekte.α=.05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

Wir können also sehen, dass Sie bei einer "kleinen" oder "mittleren" Populationseffektgröße nur eine geringe statistische Aussagekraft haben (dh 11% bzw. 44%). Wenn jedoch die Effektgröße in der Population groß ist, hätten Sie das, was einige als "vernünftige" Leistung bezeichnen würden (dh 82%).

Die Quick-r - Website bietet weitere Informationen zur Leistungsanalyse mit R .


Gute Antwort! Es gibt auch eine gute Software zur Berechnung der statistischen Leistung namens G * Power .
Enrique

7

Der t-Test mit zwei Stichproben ist gültig, wenn die beiden Stichproben unabhängige einfache Zufallsstichproben aus Normalverteilungen mit der gleichen Varianz sind und jede der Stichprobengrößen mindestens zwei beträgt (damit die Populationsvarianz geschätzt werden kann) irrelevant für die Frage der Gültigkeit der Prüfung. Abhängig von der Größe des Effekts, den man erfassen möchte, kann eine kleine Stichprobengröße unklug sein, aber eine kleine Stichprobengröße macht den Test nicht ungültig. Beachten Sie auch, dass für jede Stichprobengröße die Stichprobenverteilung des Mittelwerts Normal ist, wenn die übergeordnete Verteilung Normal ist. Natürlich sind größere Stichproben immer besser, da sie genauere Schätzungen der Parameter liefern. Der zentrale Grenzwertsatz besagt, dass Stichprobenmittelwerte normaler verteilt sind als Einzelwerte, aber wie von Casella und Berger ausgeführt, Dies ist von begrenztem Nutzen, da die Annäherungsrate an die Normalität für einen bestimmten Fall überprüft werden muss. Sich auf Faustregeln zu verlassen, ist unklug. Siehe die Ergebnisse berichtet Rand Wilcox Bücher.


5

Zwar berücksichtigt die T-Verteilung die geringe Stichprobengröße, doch würde ich davon ausgehen, dass Ihr Schiedsrichter über die Schwierigkeit nachgedacht hat, die Normalverteilung der Grundgesamtheit festzustellen, wenn Sie nur über eine relativ kleine Stichprobe verfügen. Dies ist möglicherweise kein großes Problem bei einer Stichprobe der Größe 15, da die Stichprobe hoffentlich groß genug ist, um einige Anzeichen einer vagen Normalverteilung aufzuweisen. Wenn dies zutrifft, ist hoffentlich auch die Population annähernd normal und sollte in Kombination mit dem zentralen Grenzwertsatz Stichprobenmittel liefern, die sich gut genug verhalten.

Aber ich bin zweifelhaft in Bezug auf Empfehlungen zur Verwendung von T-Tests für winzige Proben (z. B. Größe vier), es sei denn, die Normalität der Population kann durch externe Informationen oder mechanisches Verständnis festgestellt werden. In einer Stichprobe der Größe vier kann es sicherlich nicht annähernd genug Informationen geben, um einen Hinweis auf die Form der Bevölkerungsverteilung zu erhalten.


5

Man betrachte das Folgende aus den Seiten 254–256 von Sauro, J. & Lewis, JR (2016). Quantifizierung der Benutzererfahrung: Praktische Statistik für die Benutzerforschung, 2. Aufl. Cambridge, MA: Morgan-Kaufmann (Sie können unter https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ nachsehen .)


MÜSSEN SIE MINDESTENS 30 BENUTZER TESTEN?

AUF DER EINEN SEITE

Wahrscheinlich haben die meisten von uns, die an einem Einführungskurs zur Statistik teilgenommen haben (oder jemanden kennen, der an einem solchen Kurs teilgenommen hat), die Faustregel gehört, dass zum Schätzen oder Vergleichen der Mittel Ihre Stichprobengröße mindestens 30 betragen sollte. Mit zunehmender Stichprobengröße wird die Verteilung des Mittelwerts immer normaler, unabhängig von der Normalität der zugrunde liegenden Verteilung. Einige Simulationsstudien haben gezeigt, dass für eine Vielzahl von Verteilungen (aber nicht für alle - siehe Bradley, 1978) die Verteilung des Mittelwerts nahezu normal wird, wenn n = 30 ist.

Eine weitere Überlegung ist, dass es etwas einfacher ist, Z-Scores anstelle von T-Scores zu verwenden, da für Z-Scores keine Freiheitsgrade erforderlich sind. Wie in Tabelle 9.1 und Abb. 9.2 gezeigt, nähert sich der Wert von t zum Zeitpunkt, an dem Sie ungefähr 30 Freiheitsgrade haben, ziemlich dem Wert von z an. Folglich kann das Gefühl bestehen, dass Sie sich nicht mit kleinen Stichproben befassen müssen, für die eine Statistik mit kleinen Stichproben erforderlich ist (Cohen, 1990). ...

AUF DER ANDEREN SEITE

Wenn die Kosten einer Stichprobe teuer sind, wie es bei vielen Arten der Nutzerforschung der Fall ist (z. B. moderierte Usability-Tests), ist es wichtig, die benötigte Stichprobengröße so genau wie möglich zu schätzen, wobei zu berücksichtigen ist, dass es sich um eine Schätzung handelt. Die Wahrscheinlichkeit, dass 30 genau die richtige Stichprobe für einen bestimmten Satz von Umständen ist, ist sehr gering. Wie in unseren Kapiteln zur Stichprobengrößenschätzung gezeigt, besteht ein geeigneterer Ansatz darin, die Formeln zur Berechnung der Signifikanzniveaus eines statistischen Tests zu verwenden und sie unter Verwendung der Algebra zur Lösung nach n in Stichprobengrößenschätzungsformeln umzuwandeln. Diese Formeln bieten dann spezifische Anleitungen dazu, was Sie für eine bestimmte Situation wissen oder schätzen müssen, um die erforderliche Stichprobengröße zu schätzen.

Die Vorstellung, dass auch bei der t-Verteilung (im Gegensatz zur z-Verteilung) eine Stichprobengröße von mindestens 30 erforderlich ist, widerspricht dem Verlauf der Verteilungsentwicklung. Im Jahr 1899 wurde William S. Gossett, ein Absolvent des New College in Oxford mit Abschlüssen in Chemie und Mathematik, einer der ersten Wissenschaftler, der sich der Guinness-Brauerei anschloss. „Im Vergleich zu den Giganten seiner Zeit hat er sehr wenig veröffentlicht, aber sein Beitrag ist von entscheidender Bedeutung. … Aufgrund der Art des Brauprozesses mit seinen unterschiedlichen Temperaturen und Zutaten ist es nicht möglich, auf lange Sicht große Proben zu entnehmen “(Cowles, 1989, S. 108–109).

Dies bedeutete, dass Gossett keine Z-Scores in seiner Arbeit verwenden konnte - sie funktionieren einfach nicht gut mit kleinen Samples. Nachdem er die Mängel der Z-Verteilung für statistische Tests mit kleinen Stichproben analysiert hatte, erarbeitete er die erforderlichen Anpassungen in Abhängigkeit von den Freiheitsgraden, um seine T-Tabellen zu erstellen, die unter dem Pseudonym "Student" veröffentlicht wurden, da Guinness die Veröffentlichung verbot von Mitarbeitern (Salsburg, 2001). In der Arbeit, die zur Veröffentlichung der Tabellen führte, führte Gossett eine frühe Version der Monte-Carlo-Simulationen durch (Stigler, 1999). Er bereitete 3000 Karten vor, die mit physischen Maßen versehen waren, die an Kriminellen gemessen wurden, mischte sie und teilte sie dann in 750 Gruppen der Größe 4 ein - eine Stichprobe, die viel kleiner als 30 war.

UNSERE EMPFEHLUNG

Diese Kontroverse ähnelt dem in Kapitel 6 behandelten Argument „Fünf ist genug“ im Vergleich zu „Acht ist nicht genug“, das jedoch eher auf summative als auf formative Forschung angewendet wird. Bei jeder Untersuchung hängt die Anzahl der zu testenden Benutzer vom Zweck des Tests und der Art der Daten ab, die Sie sammeln möchten. Die „magische Zahl“ 30 hat einige empirische Gründe, ist aber unserer Meinung nach sehr schwach. Wie Sie an den zahlreichen Beispielen in diesem Buch sehen können, deren Stichprobengröße nicht gleich 30 ist (manchmal weniger, manchmal mehr), wird diese Faustregel nicht sehr hoch geschätzt. Wie in unserem Kapitel über die Stichprobengröße für summative Untersuchungen beschrieben, hängt die geeignete Stichprobengröße für eine Studie von der Art der Verteilung, der erwarteten Variabilität der Daten, dem gewünschten Vertrauens- und Leistungsniveau ab.

Wie in Abb. 9.2 dargestellt, kompensieren die sehr großen Werte von t bei Verwendung der t-Verteilung mit sehr kleinen Stichproben (z. B. mit Freiheitsgraden unter 5) kleine Stichprobengrößen im Hinblick auf die Kontrolle von Fehlern des Typs I ( einen Unterschied zu behaupten, ist bedeutend, wenn es wirklich nicht so ist). Bei so kleinen Stichproben sind Ihre Konfidenzintervalle viel breiter als bei größeren Stichproben. Wenn Sie jedoch mit mehr als 5 Freiheitsgraden zu tun haben, gibt es kaum einen absoluten Unterschied zwischen dem Wert von z und dem Wert von t. Aus der Perspektive der Annäherung von t an z ergibt sich nach 10 Freiheitsgraden nur ein sehr geringer Gewinn.

Es ist nicht viel komplizierter, die T-Verteilung zu verwenden als die Z-Verteilung (Sie müssen nur sicherstellen, dass Sie den richtigen Wert für die Freiheitsgrade verwenden), und der Grund für die Entwicklung der T-Verteilung war zu ermöglichen die Analyse kleiner Proben. Dies ist nur eine der weniger offensichtlichen Möglichkeiten, wie Usability-Experten von der Wissenschaft und Praxis des Bierbrauens profitieren. Statistiker betrachten Gossetts Veröffentlichung des Student-t-Tests als wegweisendes Ereignis (Box, 1984; Cowles, 1989; Stigler, 1999). In einem Brief an Ronald A. Fisher (einen der Väter der modernen Statistik), der eine frühe Kopie der T-Tabellen enthielt, schrieb Gossett: „Sie sind wahrscheinlich der einzige Mann, der sie jemals benutzen wird“ (Box, 1978). Gossett hat viele Dinge richtig verstanden, aber das hat er sicherlich falsch verstanden.

VERWEISE

Box, GEP (1984). Die Bedeutung der Praxis für die Entwicklung der Statistik. Technometrics, 26 (1), 1-8.

Box, JF (1978). Fisher, das Leben eines Wissenschaftlers. New York, NY: John Wiley.

Bradley, JV (1978). Robustheit? British Journal of Mathematical and Statistical Psychology, 31, 144-152.

Cohen, J. (1990). Dinge, die ich (bisher) gelernt habe. American Psychologist, 45 (12), 1304 & ndash; 1312.

Cowles, M. (1989). Statistik in der Psychologie: Eine historische Perspektive. Hillsdale, NJ: Lawrence Erlbaum.

Salsburg, D. (2001). Die Dame, die Tee probiert: Wie die Statistik die Wissenschaft im 20. Jahrhundert revolutionierte. New York, NY: WH Freeman.

Stigler, SM (1999). Statistik auf dem Tisch: Die Geschichte der statistischen Konzepte und Methoden. Cambridge, MA: Harvard University Press.


3

Czarina könnte es interessant finden, die Ergebnisse ihres parametrischen T-Tests mit den Ergebnissen eines Bootstrap-T-Tests zu vergleichen. Der folgende Code für Stata 13/1 imitiert ein fiktives Beispiel für einen T-Test mit zwei Stichproben und ungleichen Abweichungen (parametrischer T-Test: p-Wert = 0,1493; Bootstrap-T-Test: p-Wert = 0,1543).

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

3

Es gibt zwei verschiedene Möglichkeiten, die Verwendung des T-Tests zu rechtfertigen.

  • Ihre Daten werden normalerweise verteilt und Sie haben mindestens zwei Proben pro Gruppe
  • Sie haben große Stichproben in jeder Gruppe

Wenn entweder diese Fälle hält, dann wird der t-Test einen gültigen Test betrachtet. Wenn Sie also davon ausgehen möchten, dass Ihre Daten normal verteilt sind (was viele Forscher, die kleine Stichproben sammeln, sind), müssen Sie sich keine Sorgen machen.

Es kann jedoch sein, dass jemand Einwände dagegen erhebt, dass Sie sich auf diese Annahme verlassen, um Ihre Ergebnisse zu erhalten, insbesondere wenn bekannt ist, dass Ihre Daten schief sind. Dann ist die Frage der Stichprobengröße, die für eine gültige Schlussfolgerung erforderlich ist, sehr vernünftig.

Wie groß eine Stichprobe sein muss, darauf gibt es leider keine wirklich solide Antwort. Je verzerrter Ihre Daten sind, desto größer ist die Stichprobengröße, die erforderlich ist, um die Annäherung sinnvoll zu gestalten. 15-20 pro Gruppe werden normalerweise als angemessen groß angesehen, aber wie bei den meisten Faustregeln gibt es Zählerbeispiele: Zum Beispiel würden Sie bei Lottoscheinrückgaben (bei denen 1 von z. B. 10.000.000 Beobachtungen ein EXTREMER Ausreißer ist) buchstäblich Folgendes benötigen Etwa 100.000.000 Beobachtungen vor diesen Tests wären angebracht.


1

Ich stimme der Aussage zu, dass ein Boostrapped-T-Test nützlich ist. Ich würde zum Vergleich auch einen Blick auf die Bayes'sche Methode empfehlen, die Kruschke unter http://www.indiana.edu/~kruschke/BEST/BEST.pdf anbietet . Im Allgemeinen Fragen von "Wie viele Fächer?" Kann nur beantwortet werden, wenn Sie eine Vorstellung davon haben, wie groß der Effekt in Bezug auf das zu lösende Problem ist. Das heißt, und wenn der Test beispielsweise eine hypothetische Studie zur Wirksamkeit eines neuen Arzneimittels wäre, könnte die Effektgröße die Mindestgröße sein, die erforderlich ist, um das neue Arzneimittel im Vergleich zu dem alten für die US-amerikanische Food and Drug Administration zu rechtfertigen.

Was bei dieser und vielen anderen Diskussionen seltsam ist, ist die allgemeine Bereitschaft zu der Annahme, dass einige Daten nur eine theoretische Verteilung haben, beispielsweise Gauß. Erstens brauchen wir nicht zu behaupten, wir können auch mit kleinen Proben überprüfen. Zweitens, warum überhaupt eine bestimmte theoretische Verteilung annehmen? Warum nehmen Sie die Daten nicht einfach als empirische Verteilung für sich?

Sicher, bei kleinen Stichprobengrößen ist die Annahme, dass die Daten von einer gewissen Verteilung stammen, für die Analyse äußerst nützlich. Aber um Bradley Efron zu umschreiben, Sie haben sich dabei eine unendliche Menge an Daten ausgedacht. Manchmal kann das in Ordnung sein, wenn Ihr Problem angemessen ist. Manchmal ist es nicht.


1

Soweit Annahmen für den Fall mit zwei Beispielen gelten; es ist so, dass beide Stichproben unabhängig voneinander sind und jede Stichprobe aus iid normalen Variablen besteht, wobei die beiden Stichproben den gleichen Mittelwert und eine gemeinsame unbekannte Varianz unter der Nullhypothese haben.

Es gibt auch den Welch-T-Test, der die Satterwaite-Näherung für den Standardfehler verwendet. Dies ist ein 2-Stichproben-T-Test unter der Annahme ungleicher Varianzen.

Welchs T-Test

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.