Es gibt eine bestimmte Denkrichtung, nach der der am weitesten verbreitete Ansatz für statistische Tests ein "Hybrid" zwischen zwei Ansätzen ist: dem von Fisher und dem von Neyman-Pearson; Diese beiden Ansätze seien "inkompatibel", und daher sei der resultierende "Hybrid" ein "inkohärenter Mischmasch". Ich werde im Folgenden eine Bibliographie und einige Zitate zur Verfügung stellen, aber im Moment genügt es zu sagen, dass im Wikipedia-Artikel über statistische Hypothesentests viel darüber geschrieben wurde . Hier im Lebenslauf wurde dieser Punkt wiederholt von @Michael Lew angesprochen (siehe hier und hier ).
Meine Frage lautet: Warum wird behauptet, dass F- und NP-Ansätze nicht kompatibel sind, und warum wird behauptet, dass der Hybrid inkohärent ist? Beachten Sie, dass ich mindestens sechs Anti-Hybrid-Artikel gelesen habe (siehe unten), aber das Problem oder das Argument immer noch nicht verstehe. Beachten Sie auch, dass ich nicht vorschlage zu diskutieren, ob F oder NP ein besserer Ansatz ist; Ich biete auch nicht an, häufig auftretende oder bayesianische Rahmenbedingungen zu diskutieren. Stattdessen lautet die Frage: Akzeptiert man, dass sowohl F als auch NP gültige und bedeutungsvolle Ansätze sind, was ist so schlecht an ihrem Hybrid?
So verstehe ich die Situation. Fischers Ansatz besteht darin, den Wert zu berechnen und ihn als Beweis gegen die Nullhypothese heranzuziehen. Je kleiner das p ist , desto überzeugender sind die Beweise. Der Forscher soll diese Evidenz mit seinem Hintergrundwissen kombinieren, entscheiden, ob es überzeugend genug ist , und entsprechend vorgehen. (Beachten Sie, dass sich Fischers Ansichten im Laufe der Jahre geändert haben, aber dazu scheint er letztendlich konvergiert zu haben.) Im Gegensatz dazu besteht der Neyman-Pearson-Ansatz darin, α im Voraus zu wählen und dann zu prüfen, ob p ≤ α ist; Wenn ja, nennen Sie es signifikant und lehnen Sie die Nullhypothese ab (hier lasse ich einen großen Teil der NP-Geschichte aus, der für die aktuelle Diskussion nicht relevant ist). Siehe auch eine ausgezeichnete Antwort von @gung in Wann wird das Fisher- und Neyman-Pearson-Framework verwendet?
Der hybride Ansatz besteht darin, den Wert zu berechnen , ihn zu melden (implizit unter der Annahme, dass je kleiner desto besser) und die Ergebnisse auch als signifikant zu bezeichnen, wenn p ≤ α (normalerweise α = 0,05 ) und ansonsten nicht signifikant. Dies soll inkohärent sein. Wie kann es ungültig sein, zwei gültige Dinge gleichzeitig zu tun?
Als besonders inkohärent betrachten die Anti-Hybridisten die weit verbreitete Praxis, Werte als p < 0,05 , p < 0,01 oder p < 0,001 (oder sogar p ≤ 0,0001 ) zu melden , wobei immer die stärkste Ungleichung gewählt wird. Das Argument scheint zu sein, dass (a) die Beweiskraft nicht richtig eingeschätzt werden kann, da das genaue p nicht angegeben wird, und (b) die rechte Zahl in der Ungleichung tendenziell als α interpretiert und als Fehlerrate des Typs I betrachtet wird und das ist falsch. Ich sehe hier kein großes Problem. Erstens, genau p meldensicherlich eine bessere Praxis ist, aber niemand kümmert sich wirklich , wenn ist zB 0,02 oder 0,03 , so dass es auf einer logarithmischen Skala Rundung ist nicht soooo schlecht (und gehen unter ~ 0,0001 macht keinen Sinn sowieso machen, siehe Wie sollte winzige p-Werte gemeldet werden ? ). Zweitens ist, wenn der Konsens alles unter 0,05 als signifikant bezeichnet, die Fehlerrate α = 0,05 und p ≠ α , wie @gung in der Interpretation des p-Werts beim Testen von Hypothesen erläutert. Auch wenn dies möglicherweise ein verwirrendes Problem ist, erscheint es mir nicht verwirrender als andere Probleme bei statistischen Tests (außerhalb des Hybrids). Außerdem kann jeder Leser beim Lesen einer Hybridarbeit sein eigenes Lieblings- und damit auch seine eigene Fehlerquote berücksichtigen. Also, was ist die große Sache?
Einer der Gründe, warum ich diese Frage stellen möchte, ist, dass es wörtlich weh tut, zu sehen, wie viel des Wikipedia-Artikels über das Testen statistischer Hypothesen dem Lambasting-Hybrid gewidmet ist. Nach Halpin & Stam wird behauptet, ein gewisser Lindquist sei schuld (es gibt sogar einen großen Scan seines Lehrbuchs mit gelb hervorgehobenen "Fehlern"), und natürlich beginnt der Wiki-Artikel über Lindquist selbst mit der gleichen Anschuldigung. Aber dann fehlt mir vielleicht etwas.
Verweise
Gigerenzer, 1993, Das Über-Ich, das Ego und das Es im statistischen Denken - führte den Begriff "Hybrid" ein und nannte ihn "inkohärentes Mischmasch"
- Siehe auch neuere Ausführungen von Gigerenzer et al .: zB Mindless Statistics (2004) und The Null Ritual. Was Sie schon immer über Signifikanztests wissen wollten, aber keine Angst hatten zu fragen (2004).
Cohen, 1994, The Earth Is Round ( ) - eine sehr populäre Zeitung mit fast 3.000 Zitaten, die sich hauptsächlich mit verschiedenen Themen befasst, aber Gigerenzer positiv zitiert
Goodman, 1999, Hin zu evidenzbasierter medizinischer Statistik. 1: Der P-Wert-Irrtum
Hubbard & Bayarri, 2003, Verwirrung über Evidenzmaße ( p 's) gegenüber Fehlern ( α ' s) bei klassischen statistischen Tests - eine der beredteren Arbeiten, die gegen "Hybrid" argumentieren
Halpin & Stam, 2006, Induktive Folgerung oder induktives Verhalten: Fisher und Neyman-Pearson-Ansätze zu statistischen Tests in der psychologischen Forschung (1940-1960) [nach Registrierung kostenlos] - wirft Lindquists Lehrbuch von 1940 die Einführung des "hybriden" Ansatzes vor
@Michael Lew, 2006, Schlechte statistische Praxis in der Pharmakologie (und anderen biomedizinischen Grunddisziplinen): Sie kennen P wahrscheinlich nicht - eine schöne Übersicht und ein guter Überblick
Zitate
Gigerenzer: Was in der Psychologie als Inferenzstatistik institutionalisiert wurde, ist nicht die Fischerstatistik. Es ist eine inkohärente Mischung aus einigen von Fischers Ideen einerseits und einigen von Neyman und ES Pearson andererseits. Ich bezeichne diese Mischung als "hybride Logik" der statistischen Folgerung.
Goodman: Der [Neyman-Pearson] -Hypothesentestansatz bot Wissenschaftlern ein Faust-Geschäft - eine scheinbar automatische Möglichkeit, die Anzahl der falschen Schlussfolgerungen auf lange Sicht zu begrenzen, aber nur durch den Verzicht auf die Fähigkeit, Beweise zu messen und zu bewerten Wahrheit aus einem einzigen Experiment.
Hubbard & Bayarri: Das klassische statistische Testen ist eine anonyme Mischung aus konkurrierenden und häufig widersprüchlichen Ansätzen [...]. Insbesondere gibt es ein weit verbreitetes Versäumnis, die Inkompatibilität von Fischers Beweis- Wert mit der Typ I-Fehlerrate & agr ; der statistischen Orthodoxie von Neyman-Pearson zu schätzen . [...] Als ein Paradebeispiel für die Verwirrung, die durch [...] dieses Mischen entsteht, betrachten Sie die weithin unbeachtete Tatsache, dass der p- Wert des ersteren inkompatibel istmit dem Neyman-Pearson-Hypothesentest, in den es eingebettet wurde. Zum Beispiel haben Gibbons und Pratt [...] fälschlicherweise angegeben: "Die Angabe eines P-Wertes, ob genau oder innerhalb eines Intervalls, erlaubt es praktisch jedem Individuum, sein eigenes Signifikanzniveau als maximal tolerierbare Wahrscheinlichkeit zu wählen eines Fehlers vom Typ I. "
Halpin & Stam: Lindquists Text von 1940 war eine ursprüngliche Quelle für die Hybridisierung der Ansätze von Fisher und Neyman-Pearson. Anstatt sich an eine bestimmte Interpretation statistischer Tests zu halten, sind sich die Psychologen der konzeptionellen Schwierigkeiten, die die Kontroverse zwischen Fisher und Neyman-Pearson mit sich bringt, ambivalent geblieben.
Lew: Was wir haben, ist ein hybrider Ansatz, der weder die Fehlerraten kontrolliert noch eine Bewertung der Beweiskraft ermöglicht.