Wann sollte ein Fisher- und Neyman-Pearson-Framework verwendet werden?

73

In letzter Zeit habe ich viel über die Unterschiede zwischen der Fisher-Methode zum Testen von Hypothesen und der Neyman-Pearson-Denkschule gelesen.

Meine Frage ist, für einen Moment philosophische Einwände zu ignorieren; Wann sollten wir den Fisher-Ansatz der statistischen Modellierung anwenden und wann sollten wir die Neyman-Pearson-Methode von Signifikanzniveaus usw. anwenden? Gibt es eine praktische Möglichkeit, zu entscheiden, welcher Standpunkt in einem bestimmten praktischen Problem vertreten werden soll?

hypothesis-testing p-value methodology

— Stijn
quelle

Wo hast du darüber gelesen? Bitte geben Sie Ihre Quellen an.

— xmjx

8

Siehe zum Beispiel hier ( jstor.org/stable/2291263 ) oder hier ( stats.org.uk/statistical-inference/Lenhard2006.pdf ).

— Stijn

83

$|\bar x-100|$

Fisher war der Ansicht, dass der p-Wert als kontinuierliches Maß für die Evidenz gegen die Nullhypothese interpretiert werden kann . Es gibt keinen bestimmten festen Wert, bei dem die Ergebnisse "signifikant" werden. Normalerweise versuche ich, dies den Menschen zu vermitteln, indem ich darauf hinweise, dass p = .049 und p = .051 in jeder Hinsicht eine identische Menge an Beweisen gegen die Nullhypothese darstellen (vgl. @ Henriks Antwort hier ). .

Auf der anderen Seite dachte Neyman & Pearson , Sie könnten den p-Wert als Teil eines formalisierten Entscheidungsprozesses verwenden . Am Ende Ihrer Untersuchung müssen Sie entweder die Nullhypothese ablehnen oder die Nullhypothese nicht ablehnen. Zusätzlich könnte die Nullhypothese entweder wahr oder nicht wahr sein. Somit gibt es vier theoretische Möglichkeiten (obwohl es in einer bestimmten Situation nur zwei gibt): Sie könnten eine richtige Entscheidung treffen (eine wahre Hypothese nicht ablehnen oder eine falsche Nullhypothese ablehnen) oder Sie könnten einen Typ erstellen I- oder Typ-II-Fehler (durch Zurückweisen einer echten Null oder durch Nicht-Zurückweisen einer falschen Null-Hypothese). (Beachten Sie, dass der p-Wert nicht mit der hier diskutierten Typ-I-Fehlerrate übereinstimmt $\alpha$ $p<\alpha$

Die Ansätze von Fisherian und Neyman-Pearson sind nicht gleich . Die zentrale Behauptung des Neyman-Pearson-Frameworks ist, dass Sie am Ende Ihres Studiums eine Entscheidung treffen und weggehen müssen. Angeblich hat sich ein Forscher einmal mit "nicht signifikanten" Ergebnissen an Fisher gewandt und ihn gefragt, was er tun soll, und Fisher sagte: "Geh und hol mehr Daten."

Persönlich finde ich die elegante Logik des Neyman-Pearson-Ansatzes sehr ansprechend. Aber ich denke nicht, dass es immer angemessen ist. Meiner Meinung nach müssen mindestens zwei Bedingungen erfüllt sein, bevor das Neyman-Pearson-Framework in Betracht gezogen werden sollte:

Es sollte eine bestimmte alternative Hypothese ( Effektstärke ) geben, die Sie aus irgendeinem Grund interessiert. (Es ist mir egal, wie groß der Effekt ist, was Ihr Grund ist, ob er begründet oder kohärent ist usw., nur, dass Sie einen haben.)
Es sollte Grund zu der Annahme geben, dass der Effekt "signifikant" ist, wenn die alternative Hypothese zutrifft. (In der Praxis bedeutet dies normalerweise, dass Sie eine Leistungsanalyse durchgeführt haben und über genügend Daten verfügen.)

Wenn diese Bedingungen nicht erfüllt sind, kann der p-Wert immer noch gemäß den Vorstellungen von Fisher interpretiert werden. Darüber hinaus scheint es mir wahrscheinlich, dass diese Bedingungen die meiste Zeit nicht erfüllt sind. Hier sind einige einfache Beispiele, die in den Sinn kommen, wenn Tests ausgeführt werden, die oben genannten Bedingungen jedoch nicht erfüllt sind:

Die Omnibus-ANOVA für ein multiples Regressionsmodell (es ist möglich herauszufinden, wie alle hypothetischen Nicht-Null-Steigungsparameter zusammenkommen, um einen Nicht-Zentralitätsparameter für die F-Verteilung zu erstellen , aber es ist nicht im entferntesten intuitiv, und ich bezweifle, dass jemand macht es)
$W$
der Wert eines Varianzhomogenitätstests (z. B. Levene-Test ; gleiche Kommentare wie oben)
alle anderen Tests zur Überprüfung von Annahmen usw.
t-Tests von anderen Kovariaten als der erklärenden Variablen von primärem Interesse in der Studie
Erst- / Explorationsforschung (zB Pilotstudien)

— gung - Wiedereinsetzung von Monica
quelle

Auch wenn dies ein älteres Thema ist, wird die Antwort sehr geschätzt. +1

— Stijn

+1 Tolle Antwort! Ich bin beeindruckt von Ihrer Fähigkeit, diese Konzepte so präzise zu erläutern.

— COOLSerdash

1

Dies ist eine wirklich wundervolle Antwort, @gung

— Patrick S. Forscher

5

AFAIK Neyman-Pearson hat nicht Fisherian p - Werte verwenden und damit ein "p <alpha" Kriterium. Was Sie "Neyman-Pearson" nennen, ist eigentlich "Null-Hypothese-Signifikanz-Testen" (eine Mischung aus Fisher und NP), keine reine Neyman-Pearson-Entscheidungstheorie.

— Frank

"Wenn der Referenzwert der wahre Populationsparameter wäre." Um genau zu sein, ist es "wenn die Wahrscheinlichkeitsverteilung die ist, die in der Nullhypothese spezifiziert ist". Die Nullhypothese spezifiziert nicht nur zusammenfassende Statistiken wie einen Mittelwert, sondern spezifiziert eine gesamte Wahrscheinlichkeitsverteilung. Häufig wird die Verteilungsfamilie als implizit angesehen (z. B. Normalverteilung). An diesem Punkt legt die Angabe der Parameter die Verteilung fest.

— Kumulierung

18

Praktikabilität liegt im Auge des Betrachters, aber;

Die Signifikanzprüfung nach Fisher kann als eine Möglichkeit interpretiert werden, zu entscheiden, ob die Daten ein interessantes "Signal" suggerieren oder nicht. Entweder lehnen wir die Nullhypothese ab (was ein Fehler vom Typ I sein kann) oder sagen gar nichts. Zum Beispiel passt diese Interpretation in vielen modernen 'Omics'-Anwendungen; Wir wollen nicht zu viele Fehler vom Typ I machen, wir wollen die aufregendsten Signale herausholen, auch wenn wir vielleicht einige verpassen.
Die Hypothese von Neyman-Pearson ist sinnvoll, wenn es zwei nicht zusammenhängende Alternativen gibt (z. B. das Higgs-Boson existiert oder nicht), zwischen denen wir uns entscheiden. Neben dem Risiko eines Fehlers vom Typ I können wir hier auch einen Fehler vom Typ II machen - wenn ein echtes Signal vorhanden ist, wir aber sagen, dass es nicht vorhanden ist, und eine Nullentscheidung treffen. NP argumentierte, dass wir das Risiko von Typ-II-Fehlern minimieren wollen, ohne zu viele Typ-I-Fehlerraten zu erzeugen.

Häufig scheint keines der beiden Systeme perfekt zu sein. Beispielsweise möchten Sie möglicherweise nur eine Punktschätzung und ein entsprechendes Maß für die Unsicherheit. Außerdem spielt es möglicherweise keine Rolle, welche Version Sie verwenden, da Sie den p-Wert melden und die Testinterpretation dem Leser überlassen. Um jedoch zwischen den obigen Ansätzen zu wählen, müssen Sie ermitteln, ob (oder nicht) Fehler vom Typ II für Ihre Anwendung relevant sind.

— Gast
quelle

5

Der springende Punkt ist, dass Sie die philosophischen Unterschiede nicht ignorieren können. Ein mathematisches Verfahren in der Statistik ist nicht einfach etwas, das Sie anwenden, ohne einige zugrunde liegende Hypothesen, Annahmen, Theorien ... Philosophie.

Das heißt, wenn Sie darauf bestehen, sich an häufig vorkommende Philosophien zu halten, kann es einige sehr spezifische Probleme geben, bei denen Neyman-Pearson wirklich berücksichtigt werden muss. Sie würden alle in die Klasse der wiederholten Tests wie Qualitätskontrolle oder fMRT fallen. Das Festlegen eines bestimmten Alphas im Voraus und das Berücksichtigen des gesamten Frameworks für Typ I, Typ II und Leistung wird in dieser Einstellung wichtiger.

— John
quelle

Ich bestehe nicht darauf, mich an die Statistik der Frequentisten zu halten, aber ich habe mich nur gefragt, ob es Situationen gibt, in denen die Annahme eines Standpunkts von Fisher oder Neyman-Pearson eine Selbstverständlichkeit ist. Ich weiß, dass es eine philosophische Unterscheidung gibt, aber vielleicht gibt es auch eine praktische Seite, die berücksichtigt werden muss?

— Stijn

3

OK, so ziemlich genau das, was ich gesagt habe ... Neyman-Pearson hat sich wirklich mit Situationen befasst, in denen Sie viele, viele Tests durchführen, ohne dass die theoretischen Grundlagen für jeden einzelnen zutreffen. Der Fisher-Standpunkt spricht dieses Problem nicht wirklich an.

— John

1

Mein Verständnis ist: p-value soll uns sagen, was wir glauben sollen (Überprüfung einer Theorie mit ausreichenden Daten), während der Neyman-Pearson-Ansatz uns sagen soll, was zu tun ist (Treffen bestmöglicher Entscheidungen auch mit begrenzten Daten). Aus meiner Sicht ist der (kleine) p-Wert also strenger, während der Neyman-Pearson-Ansatz pragmatischer ist. Das ist wahrscheinlich der Grund, warum p-value eher zur Beantwortung wissenschaftlicher Fragen verwendet wird, während Neyman und Pearson eher dazu verwendet werden, statistische / praktische Entscheidungen zu treffen.

— Chaohuang
quelle