Kann ich einem signifikanten Ergebnis eines T-Tests vertrauen, wenn die Stichprobengröße klein ist?


17

Kann ich diesem Ergebnis trotzdem vertrauen, wenn mein einseitiges T-Testergebnis signifikant ist, die Stichprobengröße jedoch gering ist (z. B. unter 20 oder so)? Wenn nicht, wie soll ich dieses Ergebnis behandeln und / oder interpretieren?



8
Nur ein Kommentar, den ich nicht zu den wunderbaren Kommentaren hinzufügen möchte. Sie vertrauen dem Ergebnis eines T-Tests nicht, Sie vertrauen der Prozedur selbst. Ein einzelnes Ergebnis ist entweder richtig oder falsch, aber ohne weitere Untersuchung werden Sie nie wissen, welches. Ein T-Test nach Fisher oder nach Pearson und Neyman ist vertrauenswürdig, wenn die Annahmen erfüllt sind. Wenn Sie einstellen, täuscht Sie dies bei unendlicher Wiederholung in nicht mehr als 5% der Fälle, möglicherweise um einiges weniger. Die Frage, die Sie stellen sollten, lautet: "Sind die Annahmen erfüllt?" α<.05
Dave Harris

Antworten:


15

Wenn theoretisch alle Annahmen des t-Tests zutreffen, gibt es kein Problem mit einer kleinen Stichprobengröße.

In der Praxis gibt es einige nicht ganz zutreffende Annahmen, mit denen wir bei großen Stichproben umgehen können, die jedoch bei kleinen Stichproben Probleme verursachen können. Wissen Sie, ob die zugrunde liegende Distribution normal verteilt ist? Sind alle Proben unabhängig und gleich verteilt?

Wenn Sie die Gültigkeit des Tests bezweifeln, können Sie auch Bootstrapping verwenden. Beim Bootstrapping wird erneut aus Ihrer Stichprobe abgetastet, um festzustellen, wie oft die Nullhypothese wahr oder falsch ist. Vielleicht ist Ihre Nullhypothese und Ihr p-Wert ist 0,05, aber das Bootstrapping zeigt, dass der Stichprobenmittelwert in 10% der Fälle unter Null liegt. Dies würde darauf hinweisen, dass es sich um einen Zufall handelte, der einen p-Wert von 0,05 verursachte, und Sie sollten weniger sicher sein, dass die Nullhypothese falsch ist.μ<0


1
Wenn Sie beispielsweise wissen, dass die zugrunde liegende Verteilung in etwa eine Normalverteilung ist und alle 10 Ihrer Stichproben unter einem bestimmten Wert liegen, ist die Wahrscheinlichkeit, dass die Grundgesamtheit über diesem Wert liegt, eindeutig höchstens 1: 2 ^ 10. oder eins zu tausend. Es ist eindeutig eine 1: 2 ^ 10-Chance, dass sich alle zehn Stichproben einer normalverteilten Population auf der gleichen Seite des Mittelwerts befinden. Das Problem wird sein, dass Sie vertrauenswürdige Ergebnisse erhalten, diese aber sehr schwach sind - wie "die durchschnittliche Körpergröße eines erwachsenen Mannes liegt fast definitiv zwischen 5 und 7 Fuß".
David Schwartz

Vielen Dank für die Erklärung und den alternativen Ansatz. Ich schätze sie wirklich! Danke vielmals!
Eric

Ich verstehe Ihren Bootstrapping-Vorschlag nicht. Wenn Sie eine erneute Stichprobe aus der Stichprobe (mit p <0,05) erstellen, erwarten Sie, dass die Mehrheit der Bootstrap-Resamples signifikante Ergebnisse liefert, möglicherweise etwa 95%, nicht 5 oder 10%. Können Sie bitte näher darauf eingehen? Cc zu @Eric.
Amöbe sagt Reinstate Monica

3
Im Allgemeinen funktioniert Bootstrap in großen Samples gut, aber bei kleinen Samples kann die Abdeckung erheblich von der nominalen abweichen. Auch bei sehr geringer Probengröße ist die Leistung gering. Es ist also nicht unbedingt wahr, dass ein "Bootstrap-Test" dem T-Test immer überlegen ist.
Amöbe sagt Reinstate Monica

3
@amoeba Ich mag deinen Korrekturstil sehr. Sie haben mir nicht nur gesagt, was richtig / falsch ist, Sie haben auf eine merkwürdige Konsequenz meiner Ideen hingewiesen und mich veranlasst, meine Antwort zu überdenken und die Quelle meines Fehlers zu verstehen. Also danke dafür! In der Vergangenheit hat Whuber mir das auch angetan
Hugh

21

Sie sollten selten einem einzelnen signifikanten Ergebnis vertrauen. Sie haben nicht gesagt, warum Sie einen einseitigen Test anstelle eines zweiseitigen Tests verwendet haben. Hoffentlich haben Sie einen guten Grund, dies zu tun, als zu kämpfen, um ein statistisch signifikantes Ergebnis zu erzielen!

Wenn Sie dies beiseite legen, beachten Sie Folgendes ab S. 261 von Sauro, J. & Lewis, JR (2016). Quantifizierung der Benutzererfahrung: Praktische Statistik für die Benutzerforschung, 2. Aufl. Cambridge, MA: Morgan-Kaufmann.


Wie Ronald Fisher die Verwendung von p-Werten empfahl

Als Karl Pearson der große alte Mann der Statistik und Ronald Fisher ein relativer Neuling war, nutzte Pearson seinen Einfluss, um Fisher daran zu hindern, in den wichtigsten statistischen Fachzeitschriften der damaligen Zeit, Biometrika und dem Journal, zu veröffentlichen der Royal Statistical Society. Infolgedessen veröffentlichte Fisher seine Ideen in einer Vielzahl anderer Veranstaltungsorte wie landwirtschaftlichen und meteorologischen Fachzeitschriften, darunter mehrere Artikel für die Proceedings of the Society for Psychical Research. In einem der Artikel für dieses letztere Journal erwähnte er die Konvention, den akzeptablen Typ I-Fehler (Alpha) auf 0,05 zu setzen, und kritisch die Wichtigkeit der Reproduzierbarkeit, wenn ein unerwartetes signifikantes Ergebnis auftritt:

Eine Beobachtung wird als signifikant eingestuft, wenn sie ohne einen wirklichen Grund der Art, die wir suchen, nur selten gemacht worden wäre. Es ist gängige Praxis, ein signifikantes Ergebnis zu beurteilen, wenn es so groß ist, dass es nicht häufiger als einmal in zwanzig Versuchen zufällig erzeugt worden wäre. Dies ist ein willkürliches, aber bequemes Maß an Bedeutung für den praktischen Ermittler, aber es bedeutet nicht, dass er sich alle zwanzig Experimente einmal täuschen lässt. Der Signifikanztest sagt ihm nur, was zu ignorieren ist, nämlich alle Experimente, bei denen keine signifikanten Ergebnisse erzielt werden. Er sollte nur behaupten, dass ein Phänomen experimentell nachweisbar ist, wenn er weiß, wie man ein Experiment so gestaltet, dass es selten ein signifikantes Ergebnis liefert. Folglich, isolierte signifikante Ergebnisse, die er nicht reproduzieren kann, bleiben bis zur weiteren Untersuchung in der Schwebe. (Fisher, 1929, S. 191)

Referenz

Fisher, RA (1929). Die statistische Methode in der psychischen Forschung. Verfahren der Gesellschaft für psychische Forschung, 39, 189-192.


2
Fisher veröffentlichte auch mehrere wichtige Veröffentlichungen in The Annals of Eugenics, in denen die Einschätzung der maximalen Wahrscheinlichkeit neu bewertet wurde. Seine Methode war oft besser als die Methode der Momente, die Karl Pearson benutzte. Fisher nannte seine Methode Vergleichsinferenz. Es wurde später von Jerzy Neyman und Egon Pearson (Karl Pearsons Sohn) formalisiert.
Michael R. Chernick

3
Neyman und Pearson haben Fischers Vergleichsinferenz nicht formalisiert. Sie entwickelten eine alternative Methode.
Michael Lew

5
Zu Fischers Zeiten bedeutete "signifikant", dass es etwas bedeutet, nicht, dass es wichtig ist.
David Lane

1
Vielen Dank für die sehr ausführlichen Informationen! Das hilft mir sehr!
Eric

16

Stellen Sie sich vor, Sie befinden sich in einer Situation, in der Sie viele ähnliche Tests durchführen, in einer Reihe von Situationen, in denen ein Bruchteil der Nullen wahr ist.

t

(1β)β

nMnM sind groß genug, um zu diskutieren, was im Durchschnitt passiert, als ob sie das sind, was wir erleben.

Welcher Anteil Ihrer Ablehnungen wird "korrekt" sein?

ntα+n(1t)(1β)
n(1t)(1β)

(1t)(1β)tα+(1t)(1β)

Overall proportion of times a rejection was an error: tαtα+(1t)(1β)

For the proportion of correct rejections to be more than a small number you need to avoid the situation where (1t)(1β)tα

Since in our setup a substantial fraction of nulls are true, if 1β is not substantially larger than α (i.e. if you don't have fairly high power), a lot of our rejections are mistakes!

Wenn Ihre Stichprobengröße klein ist (und daher die Leistung gering ist) und ein vernünftiger Bruchteil unserer Nullen wahr ist, machen wir häufig einen Fehler, wenn wir ablehnen.

Die Situation ist nicht viel besser, wenn fast alle unsere Nullen streng falsch sind - während die meisten unserer Ablehnungen richtig sind (trivial, da winzige Effekte immer noch streng falsch sind), wenn die Stärke nicht hoch ist, ein wesentlicher Bruchteil davon Ablehnungen werden "in die falsche Richtung" gehen - wir werden feststellen, dass die Null ziemlich oft falsch ist, weil sich zufällig herausstellt, dass die Stichprobe auf der falschen Seite ist (dies kann ein Argument für einseitige Tests sein - wenn einseitige Tests durchgeführt werden Sinn - um zumindest Ablehnungen zu vermeiden, die keinen Sinn ergeben, wenn große Stichprobengrößen schwer zu bekommen sind).

Wir können sehen, dass kleine Stichprobengrößen sicherlich ein Problem sein können.

[Dieser Anteil an falschen Ablehnungen wird als falsche Entdeckungsrate bezeichnet. ]


Wenn Sie eine Vorstellung von der wahrscheinlichen Effektgröße haben, können Sie besser beurteilen, welche Stichprobengröße angemessen ist. Bei großen erwarteten Auswirkungen wäre eine Ablehnung mit einer kleinen Stichprobengröße nicht unbedingt ein großes Problem.


Danke vielmals! Das ist ein Punkt, den ich sehr leicht übersehen kann. Vielen Dank für den Hinweis!
Eric

1
Gute Arbeit. Dies könnte die akzeptierte Antwort sein.
Richard Hardy

@Eric the original answer got a bit muddled up in the middle; I have corrected it.
Glen_b -Reinstate Monica

9

Some of Gosset's original work (aka Student), for which he developed the t test, involved yeast samples of n=4 and 5. The test was specifically designed for very small samples. Otherwise, the normal approximation would be fine. That said, Gosset was doing very careful, controlled experiments on data that he understood very well. There's a limit to the number of things a brewery has to test, and Gosset spent his working life at Guinness. He knew his data.

Ich bin ein bisschen misstrauisch gegenüber Ihrer Betonung einseitiger Tests. Die Logik des Testens ist unabhängig von der Hypothese dieselbe, aber ich habe gesehen, dass Menschen einen signifikanten einseitigen Test durchgeführt haben, als der zweiseitige nicht signifikant war.

Dies ist, was ein (oberer) einseitiger Test impliziert. Sie testen, dass ein Mittelwert 0 ist. Sie rechnen und sind bereit, abzulehnen, wenn T> 2,5 ist. Sie führen Ihr Experiment durch und stellen fest, dass T = -50.000 ist. Du sagst "phhhhht" und das Leben geht weiter. Sofern es physikalisch nicht unmöglich ist, dass die Teststatistik weit unter den hypothetischen Parameterwert sinkt, und Sie niemals eine Entscheidung treffen würden, wenn die Teststatistik in die entgegengesetzte Richtung als erwartet verläuft, sollten Sie einen zweiseitigen Test verwenden.


6

Die Hauptsache, über die Sie sich Sorgen machen müssen, ist die Stärke Ihres Tests. Insbesondere möchten Sie möglicherweise eine Post-hoc-Stromversorgungsanalyse durchführen, um zu ermitteln, wie wahrscheinlich es ist, dass Sie angesichts Ihrer Stichprobengröße einen echten signifikanten Effekt mit einer angemessenen Größe feststellen. Wenn typische Effekte sehr groß sind, könnte ein n von 8 völlig ausreichend sein (wie bei vielen Experimenten in der Molekularbiologie). Wenn die Effekte, an denen Sie interessiert sind, jedoch in der Regel subtil sind (wie bei vielen sozialpsychologischen Experimenten), sind möglicherweise immer noch n von Tausenden unterfordert.

Dies ist wichtig, da unzureichende Tests zu sehr irreführenden Ergebnissen führen können. Wenn Ihr Test beispielsweise zu schwach ist, selbst wenn Sie ein signifikantes Ergebnis feststellen, besteht eine relativ hohe Wahrscheinlichkeit dafür, dass das, was Andrew Gelman als "Typ S" -Fehler bezeichnet, ein realer Effekt auftritt, jedoch in die entgegengesetzte Richtung oder ein "Typ M" -Fehler, dh es gibt einen echten Effekt, aber die wahre Größe ist viel schwächer als aus den Daten geschätzt.

Gelman und Carlin haben ein nützliches Papier über die Durchführung von Post-Hoc-Stromversorgungsanalysen verfasst, das meines Erachtens in Ihrem Fall zutrifft. Wichtig ist, dass unabhängige Daten (dh nicht die von Ihnen getesteten Daten, sondern Übersichten, Modelle, Ergebnisse ähnlicher Experimente usw.) verwendet werden, um eine plausible tatsächliche Effektgröße zu ermitteln. Indem Sie eine Leistungsanalyse mit dieser plausiblen geschätzten tatsächlichen Effektgröße durchführen und mit Ihren Ergebnissen vergleichen, können Sie die Wahrscheinlichkeit eines Fehlers vom Typ S und das typische "Übertreibungsverhältnis" bestimmen und so ein besseres Gefühl dafür bekommen, wie stark Ihre Beweise tatsächlich sind.


4

Man könnte sagen, der springende Punkt der statistischen Signifikanz ist die Beantwortung der Frage "Kann ich diesem Ergebnis angesichts der Stichprobengröße vertrauen?". Mit anderen Worten, der springende Punkt ist es, die Tatsache zu kontrollieren, dass Sie bei kleinen Stichprobengrößen Probleme bekommen können, wenn kein wirklicher Effekt vorliegt. Die statistische Signifikanz, das heißt der p-Wert, ist genau die Antwort auf die Frage: "Wenn es keinen wirklichen Effekt gäbe, wie wahrscheinlich wäre es, dass ich einen so großen Zufall bekomme?". Wenn es sehr unwahrscheinlich ist, bedeutet das, dass es kein Zufall ist.

Die Antwort lautet also "Ja", wenn der p-Wert niedrig ist und wenn Sie die richtigen statistischen Verfahren befolgt haben und die relevanten Annahmen erfüllen, dann ist dies ein guter Beweis und hat dasselbe Gewicht wie Sie erhalten den gleichen p-Wert mit einer sehr großen Stichprobengröße.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.