Kann ich diesem Ergebnis trotzdem vertrauen, wenn mein einseitiges T-Testergebnis signifikant ist, die Stichprobengröße jedoch gering ist (z. B. unter 20 oder so)? Wenn nicht, wie soll ich dieses Ergebnis behandeln und / oder interpretieren?
Kann ich diesem Ergebnis trotzdem vertrauen, wenn mein einseitiges T-Testergebnis signifikant ist, die Stichprobengröße jedoch gering ist (z. B. unter 20 oder so)? Wenn nicht, wie soll ich dieses Ergebnis behandeln und / oder interpretieren?
Antworten:
Wenn theoretisch alle Annahmen des t-Tests zutreffen, gibt es kein Problem mit einer kleinen Stichprobengröße.
In der Praxis gibt es einige nicht ganz zutreffende Annahmen, mit denen wir bei großen Stichproben umgehen können, die jedoch bei kleinen Stichproben Probleme verursachen können. Wissen Sie, ob die zugrunde liegende Distribution normal verteilt ist? Sind alle Proben unabhängig und gleich verteilt?
Wenn Sie die Gültigkeit des Tests bezweifeln, können Sie auch Bootstrapping verwenden. Beim Bootstrapping wird erneut aus Ihrer Stichprobe abgetastet, um festzustellen, wie oft die Nullhypothese wahr oder falsch ist. Vielleicht ist Ihre Nullhypothese und Ihr p-Wert ist 0,05, aber das Bootstrapping zeigt, dass der Stichprobenmittelwert in 10% der Fälle unter Null liegt. Dies würde darauf hinweisen, dass es sich um einen Zufall handelte, der einen p-Wert von 0,05 verursachte, und Sie sollten weniger sicher sein, dass die Nullhypothese falsch ist.
Sie sollten selten einem einzelnen signifikanten Ergebnis vertrauen. Sie haben nicht gesagt, warum Sie einen einseitigen Test anstelle eines zweiseitigen Tests verwendet haben. Hoffentlich haben Sie einen guten Grund, dies zu tun, als zu kämpfen, um ein statistisch signifikantes Ergebnis zu erzielen!
Wenn Sie dies beiseite legen, beachten Sie Folgendes ab S. 261 von Sauro, J. & Lewis, JR (2016). Quantifizierung der Benutzererfahrung: Praktische Statistik für die Benutzerforschung, 2. Aufl. Cambridge, MA: Morgan-Kaufmann.
Wie Ronald Fisher die Verwendung von p-Werten empfahl
Als Karl Pearson der große alte Mann der Statistik und Ronald Fisher ein relativer Neuling war, nutzte Pearson seinen Einfluss, um Fisher daran zu hindern, in den wichtigsten statistischen Fachzeitschriften der damaligen Zeit, Biometrika und dem Journal, zu veröffentlichen der Royal Statistical Society. Infolgedessen veröffentlichte Fisher seine Ideen in einer Vielzahl anderer Veranstaltungsorte wie landwirtschaftlichen und meteorologischen Fachzeitschriften, darunter mehrere Artikel für die Proceedings of the Society for Psychical Research. In einem der Artikel für dieses letztere Journal erwähnte er die Konvention, den akzeptablen Typ I-Fehler (Alpha) auf 0,05 zu setzen, und kritisch die Wichtigkeit der Reproduzierbarkeit, wenn ein unerwartetes signifikantes Ergebnis auftritt:
Eine Beobachtung wird als signifikant eingestuft, wenn sie ohne einen wirklichen Grund der Art, die wir suchen, nur selten gemacht worden wäre. Es ist gängige Praxis, ein signifikantes Ergebnis zu beurteilen, wenn es so groß ist, dass es nicht häufiger als einmal in zwanzig Versuchen zufällig erzeugt worden wäre. Dies ist ein willkürliches, aber bequemes Maß an Bedeutung für den praktischen Ermittler, aber es bedeutet nicht, dass er sich alle zwanzig Experimente einmal täuschen lässt. Der Signifikanztest sagt ihm nur, was zu ignorieren ist, nämlich alle Experimente, bei denen keine signifikanten Ergebnisse erzielt werden. Er sollte nur behaupten, dass ein Phänomen experimentell nachweisbar ist, wenn er weiß, wie man ein Experiment so gestaltet, dass es selten ein signifikantes Ergebnis liefert. Folglich, isolierte signifikante Ergebnisse, die er nicht reproduzieren kann, bleiben bis zur weiteren Untersuchung in der Schwebe. (Fisher, 1929, S. 191)
Referenz
Fisher, RA (1929). Die statistische Methode in der psychischen Forschung. Verfahren der Gesellschaft für psychische Forschung, 39, 189-192.
Stellen Sie sich vor, Sie befinden sich in einer Situation, in der Sie viele ähnliche Tests durchführen, in einer Reihe von Situationen, in denen ein Bruchteil der Nullen wahr ist.
sind groß genug, um zu diskutieren, was im Durchschnitt passiert, als ob sie das sind, was wir erleben.
Welcher Anteil Ihrer Ablehnungen wird "korrekt" sein?
Overall proportion of times a rejection was an error:
For the proportion of correct rejections to be more than a small number you need to avoid the situation where
Since in our setup a substantial fraction of nulls are true, if is not substantially larger than (i.e. if you don't have fairly high power), a lot of our rejections are mistakes!
Wenn Ihre Stichprobengröße klein ist (und daher die Leistung gering ist) und ein vernünftiger Bruchteil unserer Nullen wahr ist, machen wir häufig einen Fehler, wenn wir ablehnen.
Die Situation ist nicht viel besser, wenn fast alle unsere Nullen streng falsch sind - während die meisten unserer Ablehnungen richtig sind (trivial, da winzige Effekte immer noch streng falsch sind), wenn die Stärke nicht hoch ist, ein wesentlicher Bruchteil davon Ablehnungen werden "in die falsche Richtung" gehen - wir werden feststellen, dass die Null ziemlich oft falsch ist, weil sich zufällig herausstellt, dass die Stichprobe auf der falschen Seite ist (dies kann ein Argument für einseitige Tests sein - wenn einseitige Tests durchgeführt werden Sinn - um zumindest Ablehnungen zu vermeiden, die keinen Sinn ergeben, wenn große Stichprobengrößen schwer zu bekommen sind).
Wir können sehen, dass kleine Stichprobengrößen sicherlich ein Problem sein können.
[Dieser Anteil an falschen Ablehnungen wird als falsche Entdeckungsrate bezeichnet. ]
Wenn Sie eine Vorstellung von der wahrscheinlichen Effektgröße haben, können Sie besser beurteilen, welche Stichprobengröße angemessen ist. Bei großen erwarteten Auswirkungen wäre eine Ablehnung mit einer kleinen Stichprobengröße nicht unbedingt ein großes Problem.
Some of Gosset's original work (aka Student), for which he developed the t test, involved yeast samples of n=4 and 5. The test was specifically designed for very small samples. Otherwise, the normal approximation would be fine. That said, Gosset was doing very careful, controlled experiments on data that he understood very well. There's a limit to the number of things a brewery has to test, and Gosset spent his working life at Guinness. He knew his data.
Ich bin ein bisschen misstrauisch gegenüber Ihrer Betonung einseitiger Tests. Die Logik des Testens ist unabhängig von der Hypothese dieselbe, aber ich habe gesehen, dass Menschen einen signifikanten einseitigen Test durchgeführt haben, als der zweiseitige nicht signifikant war.
Dies ist, was ein (oberer) einseitiger Test impliziert. Sie testen, dass ein Mittelwert 0 ist. Sie rechnen und sind bereit, abzulehnen, wenn T> 2,5 ist. Sie führen Ihr Experiment durch und stellen fest, dass T = -50.000 ist. Du sagst "phhhhht" und das Leben geht weiter. Sofern es physikalisch nicht unmöglich ist, dass die Teststatistik weit unter den hypothetischen Parameterwert sinkt, und Sie niemals eine Entscheidung treffen würden, wenn die Teststatistik in die entgegengesetzte Richtung als erwartet verläuft, sollten Sie einen zweiseitigen Test verwenden.
Die Hauptsache, über die Sie sich Sorgen machen müssen, ist die Stärke Ihres Tests. Insbesondere möchten Sie möglicherweise eine Post-hoc-Stromversorgungsanalyse durchführen, um zu ermitteln, wie wahrscheinlich es ist, dass Sie angesichts Ihrer Stichprobengröße einen echten signifikanten Effekt mit einer angemessenen Größe feststellen. Wenn typische Effekte sehr groß sind, könnte ein n von 8 völlig ausreichend sein (wie bei vielen Experimenten in der Molekularbiologie). Wenn die Effekte, an denen Sie interessiert sind, jedoch in der Regel subtil sind (wie bei vielen sozialpsychologischen Experimenten), sind möglicherweise immer noch n von Tausenden unterfordert.
Dies ist wichtig, da unzureichende Tests zu sehr irreführenden Ergebnissen führen können. Wenn Ihr Test beispielsweise zu schwach ist, selbst wenn Sie ein signifikantes Ergebnis feststellen, besteht eine relativ hohe Wahrscheinlichkeit dafür, dass das, was Andrew Gelman als "Typ S" -Fehler bezeichnet, ein realer Effekt auftritt, jedoch in die entgegengesetzte Richtung oder ein "Typ M" -Fehler, dh es gibt einen echten Effekt, aber die wahre Größe ist viel schwächer als aus den Daten geschätzt.
Gelman und Carlin haben ein nützliches Papier über die Durchführung von Post-Hoc-Stromversorgungsanalysen verfasst, das meines Erachtens in Ihrem Fall zutrifft. Wichtig ist, dass unabhängige Daten (dh nicht die von Ihnen getesteten Daten, sondern Übersichten, Modelle, Ergebnisse ähnlicher Experimente usw.) verwendet werden, um eine plausible tatsächliche Effektgröße zu ermitteln. Indem Sie eine Leistungsanalyse mit dieser plausiblen geschätzten tatsächlichen Effektgröße durchführen und mit Ihren Ergebnissen vergleichen, können Sie die Wahrscheinlichkeit eines Fehlers vom Typ S und das typische "Übertreibungsverhältnis" bestimmen und so ein besseres Gefühl dafür bekommen, wie stark Ihre Beweise tatsächlich sind.
Man könnte sagen, der springende Punkt der statistischen Signifikanz ist die Beantwortung der Frage "Kann ich diesem Ergebnis angesichts der Stichprobengröße vertrauen?". Mit anderen Worten, der springende Punkt ist es, die Tatsache zu kontrollieren, dass Sie bei kleinen Stichprobengrößen Probleme bekommen können, wenn kein wirklicher Effekt vorliegt. Die statistische Signifikanz, das heißt der p-Wert, ist genau die Antwort auf die Frage: "Wenn es keinen wirklichen Effekt gäbe, wie wahrscheinlich wäre es, dass ich einen so großen Zufall bekomme?". Wenn es sehr unwahrscheinlich ist, bedeutet das, dass es kein Zufall ist.
Die Antwort lautet also "Ja", wenn der p-Wert niedrig ist und wenn Sie die richtigen statistischen Verfahren befolgt haben und die relevanten Annahmen erfüllen, dann ist dies ein guter Beweis und hat dasselbe Gewicht wie Sie erhalten den gleichen p-Wert mit einer sehr großen Stichprobengröße.