| X¯- 100 |
Fisher war der Ansicht, dass der p-Wert als kontinuierliches Maß für die Evidenz gegen die Nullhypothese interpretiert werden kann . Es gibt keinen bestimmten festen Wert, bei dem die Ergebnisse "signifikant" werden. Normalerweise versuche ich, dies den Menschen zu vermitteln, indem ich darauf hinweise, dass p = .049 und p = .051 in jeder Hinsicht eine identische Menge an Beweisen gegen die Nullhypothese darstellen (vgl. @ Henriks Antwort hier ). .
Auf der anderen Seite dachte Neyman & Pearson , Sie könnten den p-Wert als Teil eines formalisierten Entscheidungsprozesses verwenden . Am Ende Ihrer Untersuchung müssen Sie entweder die Nullhypothese ablehnen oder die Nullhypothese nicht ablehnen. Zusätzlich könnte die Nullhypothese entweder wahr oder nicht wahr sein. Somit gibt es vier theoretische Möglichkeiten (obwohl es in einer bestimmten Situation nur zwei gibt): Sie könnten eine richtige Entscheidung treffen (eine wahre Hypothese nicht ablehnen oder eine falsche Nullhypothese ablehnen) oder Sie könnten einen Typ erstellen I- oder Typ-II-Fehler (durch Zurückweisen einer echten Null oder durch Nicht-Zurückweisen einer falschen Null-Hypothese). (Beachten Sie, dass der p-Wert nicht mit der hier diskutierten Typ-I-Fehlerrate übereinstimmtαp < α
Die Ansätze von Fisherian und Neyman-Pearson sind nicht gleich . Die zentrale Behauptung des Neyman-Pearson-Frameworks ist, dass Sie am Ende Ihres Studiums eine Entscheidung treffen und weggehen müssen. Angeblich hat sich ein Forscher einmal mit "nicht signifikanten" Ergebnissen an Fisher gewandt und ihn gefragt, was er tun soll, und Fisher sagte: "Geh und hol mehr Daten."
Persönlich finde ich die elegante Logik des Neyman-Pearson-Ansatzes sehr ansprechend. Aber ich denke nicht, dass es immer angemessen ist. Meiner Meinung nach müssen mindestens zwei Bedingungen erfüllt sein, bevor das Neyman-Pearson-Framework in Betracht gezogen werden sollte:
- Es sollte eine bestimmte alternative Hypothese ( Effektstärke ) geben, die Sie aus irgendeinem Grund interessiert. (Es ist mir egal, wie groß der Effekt ist, was Ihr Grund ist, ob er begründet oder kohärent ist usw., nur, dass Sie einen haben.)
- Es sollte Grund zu der Annahme geben, dass der Effekt "signifikant" ist, wenn die alternative Hypothese zutrifft. (In der Praxis bedeutet dies normalerweise, dass Sie eine Leistungsanalyse durchgeführt haben und über genügend Daten verfügen.)
Wenn diese Bedingungen nicht erfüllt sind, kann der p-Wert immer noch gemäß den Vorstellungen von Fisher interpretiert werden. Darüber hinaus scheint es mir wahrscheinlich, dass diese Bedingungen die meiste Zeit nicht erfüllt sind. Hier sind einige einfache Beispiele, die in den Sinn kommen, wenn Tests ausgeführt werden, die oben genannten Bedingungen jedoch nicht erfüllt sind:
- Die Omnibus-ANOVA für ein multiples Regressionsmodell (es ist möglich herauszufinden, wie alle hypothetischen Nicht-Null-Steigungsparameter zusammenkommen, um einen Nicht-Zentralitätsparameter für die F-Verteilung zu erstellen , aber es ist nicht im entferntesten intuitiv, und ich bezweifle, dass jemand macht es)
- W
- der Wert eines Varianzhomogenitätstests (z. B. Levene-Test ; gleiche Kommentare wie oben)
- alle anderen Tests zur Überprüfung von Annahmen usw.
- t-Tests von anderen Kovariaten als der erklärenden Variablen von primärem Interesse in der Studie
- Erst- / Explorationsforschung (zB Pilotstudien)