Warum sprechen niedrigere p-Werte nicht mehr gegen die Null? Argumente von Johansson 2011


31

Johansson (2011) in „ Hail the unmöglich: p-Wert, Beweise und Wahrscheinlichkeit “ (hier ist auch Link zur Zeitschrift ) besagt , dass untere - Werte oft als stärkere Beweise gegen die Null betrachtet werden. Johansson impliziert, dass die Leute Beweise gegen die Null als stärker ansehen würden, wenn ihr statistischer Test einen Wert von ausgeben würde , als wenn ihr statistischer Test einen Wert von ausgeben würde . Johansson nennt vier Gründe, warum der Wert nicht als Beweis gegen die Null verwendet werden kann:pp0.01p0.45p

  1. p ist unter der Nullhypothese gleichmäßig verteilt und kann daher niemals Hinweise auf die Null geben.
  2. p ist ausschließlich von der Nullhypothese abhängig und daher nicht geeignet, Beweise zu quantifizieren, da Beweise immer im Sinne von Beweisen für oder gegen eine Hypothese relativ zu einer anderen Hypothese relativ sind.
  3. p bezeichnet eher die Wahrscheinlichkeit, Beweise zu erhalten (angesichts der Null) als die Stärke der Beweise.
  4. p hängt von unbeobachteten Daten und subjektiven Absichten ab und impliziert daher unter Berücksichtigung der offensichtlichen Interpretation, dass die offensichtliche Stärke beobachteter Daten von Dingen abhängt, die nicht geschehen sind, und von subjektiven Absichten.

Leider kann ich Johanssons Artikel nicht intuitiv nachvollziehen. Für mich bedeutet ein Wert von , dass die Wahrscheinlichkeit geringer ist, dass die Null wahr ist, als ein Wert von . Warum sind niedrigere Werte kein stärkerer Beweis gegen null? p0.01p0.45p


Hallo, @luciano! Ich sehe, dass Sie in diesem Thread keine Antwort akzeptiert haben. Welche Art von Antwort suchen Sie? Geht es bei Ihrer Frage in erster Linie um Johannsons Argumente oder um niedrigere p-Werte im Allgemeinen?
Amöbe sagt Reinstate Monica

Hier geht es um die häufig auftretenden Frameworks von Fisher gegen Neyman-Pearson. Weitere Informationen finden Sie in dieser Antwort von @gung .
Firebug

Antworten:


21

Meine persönliche Einschätzung seiner Argumente:

  1. Hier spricht er über die Verwendung von als Beweis für die Null, während seine These lautet, dass p nicht als Beweis gegen die Null verwendet werden kann. Ich denke also, dass dieses Argument weitgehend irrelevant ist.pp
  2. Ich halte das für ein Missverständnis. Fisherian testing folgt stark der Idee von Poppers kritischem Rationalismus, wonach man eine Theorie nicht unterstützen, sondern nur kritisieren kann. In diesem Sinne gibt es nur eine einzige Hypothese (die Null) und Sie prüfen einfach, ob Ihre Daten mit dieser übereinstimmen.p
  3. Ich stimme hier nicht zu. Es hängt von der Teststatistik ab, aber ist normalerweise eine Transformation einer Effektgröße, die gegen den Nullwert spricht. Je höher der Effekt, desto niedriger der p-Wert - alle anderen Dinge sind gleich. Für unterschiedliche Datensätze oder Hypothesen gilt dies natürlich nicht mehr. p
  4. Ich bin nicht sicher , ganz verstehe ich diese Aussage, sondern von dem, was ich sammeln kann dies weniger ein Problem der wie Menschen es falsch verwendet wird . p sollte die langfristige Frequenzinterpretation ermöglichen, und das ist kein Fehler. Sie können p jedoch nicht dafür verantwortlich machen, dass Leute einen einzelnen p- Wert als Beweis für ihre Hypothese nehmen oder nur p < .05 veröffentlichen . ppppp<.05

Sein Vorschlag, das Wahrscheinlichkeitsverhältnis als Beweismaß zu verwenden, ist meiner Meinung nach gut (aber hier ist die Idee eines Bayes-Faktors allgemeiner), aber in dem Kontext, in dem er es einbringt, ist es etwas eigenartig: Zuerst geht er die Gründe für Fischertests, aus denen es keine alternative Hypothese zur Berechnung des Wahrscheinlichkeitsverhältnisses gibt. Aber als Beweis gegen die Null ist Fisherian. Daher verwechselt er Fisher und Neyman-Pearson. Zweitens sind die meisten Teststatistiken, die wir verwenden, (Funktionen) des Wahrscheinlichkeitsverhältnisses, und in diesem Fall ist p eine Transformation des Wahrscheinlichkeitsverhältnisses. Wie Cosma Shalizi es ausdrückt:pp

Unter allen Tests einer gegebenen Größe hat der Test mit der geringsten Fehlerwahrscheinlichkeit oder der höchsten Potenz die Form "Sagen Sie 'Signal', wenn q ( x ) / p ( x ) > t ( s ) , andernfalls sagen Sie 'Rauschen'. , "und dass die Schwelle t umgekehrt mit s variiert . Die Größe q ( x ) / p ( x ) ist das Wahrscheinlichkeitsverhältnis; Das Neyman-Pearson-Lemma sagt, um die Leistung zu maximieren, sollten wir "Signal" sagen, wenn es wahrscheinlicher ist als Rauschen.sq(x)/p(x)>t(s)tsq(x)/p(x)

Hier ist die Dichte im Zustand "Signal" und p ( x ) die Dichte im Zustand "Rauschen". Die Maßnahme für "hinreichend wahrscheinlich" wäre hier P ( q ( X ) / p ( x ) > t o b s | H 0 ) , das ist p . Beachten Sie, dass in der richtigen Neyman-Pearson Testen t o b s durch eine feste substituiert ist t ( s ) derart , dass Pq(x)p(x)P(q(X)/p(x)>tobsH0)ptobst(s) . P(q(X)/p(x)>t(s)H0)=α


6
+1 für Punkt 3 allein. Cox beschreibt den p-Wert als eine Kalibrierung des Likelihood-Verhältnisses (oder einer anderen Teststatistik) und diese Sichtweise wird oft vergessen.
Scortchi

(+1) Schöne Antwort, @Momo. Ich frage mich, ob es durch Hinzufügen von etwas wie "Aber sie sind!" Verbessert werden könnte. in einer großen Schrift als Überschrift Ihrer Antwort, da dies Ihre Antwort auf die OP-Titelfrage zu sein scheint: "Warum sprechen niedrigere p-Werte nicht mehr gegen die Null?" Sie entkräften alle angegebenen Argumente, geben jedoch keine explizite Antwort auf die Titelfrage.
Amöbe sagt Reinstate Monica

1
Ich zögere ein bisschen, das zu tun, es ist alles sehr subtil und sehr abhängig von Annahmen, Kontexten usw. Sie können zum Beispiel mit Bestimmtheit leugnen, dass probabilistische Aussagen als "Beweismittel" verwendet werden können, und daher ist die Aussage korrekt. Aus fischerischer Sicht ist dies nicht der Fall. Außerdem würde ich nicht sagen, dass ich (alle) Argumente entlarve, sondern nur eine andere Perspektive und einige logische Fehler in der Argumentation aufzeigen. Der Autor argumentiert gut und versucht, eine Lösung für einen einschlägigen Ansatz zu finden, der für sich genommen als ebenso problematisch angesehen werden kann.
Momo

9

Der Grund , dass Argumente wie Johanssons recycelt werden , so scheint oft mit der Tatsache zusammen, dass P-Werte Indizes der Beweise gegen die Null sind , sind aber nicht Maßnahmen der Beweise. Die Evidenz hat mehr Dimensionen, als jede einzelne Zahl messen kann, und daher gibt es immer Aspekte der Beziehung zwischen P-Werten und Evidenz, die für Menschen schwierig sein können.

Ich habe viele der von Johansson in einem Artikel verwendeten Argumente überprüft, die die Beziehung zwischen P-Werten und Likelihood-Funktionen und damit Belege zeigen: http://arxiv.org/abs/1311.0081 Leider wurde dieser Artikel jetzt dreimal zurückgewiesen. obwohl seine Argumente und die Beweise für sie nicht widerlegt wurden. (Es scheint, dass es unangenehm ist, wenn Schiedsrichter Meinungen wie Johanssons vertreten, anstatt sich zu irren.)


+1 @Michael Lew, was ist mit dem Titelwechsel? Zu P (ee) oder nicht zu P (ee) ... klingt nicht nach einem Dilemna. Wir alle wissen, was in dieser Situation zu tun ist. = D Scherz beiseite, was waren die Gründe für die Ablehnung Ihres Papiers?
Ein alter Mann im Meer.

4

Hinzufügen zu @ Momos nette Antwort:

1


2
Es ist erwähnenswert, dass die Beweise selbst nicht durch eine Vielzahl von Tests beeinflusst werden, selbst wenn Ihre Reaktion auf die Beweise möglicherweise geändert wird. Die Beweise in den Daten sind die Beweise in den Daten und werden von Berechnungen, die Sie möglicherweise auf Ihrem Computer durchführen, nicht beeinflusst. Die typische "Korrektur" von p-Werten für eine Vielzahl von Tests hat damit zu tun, falsch positive Fehlerraten beizubehalten und nicht die Beziehung zwischen dem p-Wert und den experimentellen Beweisen zu korrigieren.
Michael Lew

1

Spricht Johansson von p-Werten aus zwei verschiedenen Experimenten? In diesem Fall kann der Vergleich von p-Werten dem Vergleich von Äpfeln mit Lammkoteletts entsprechen. Wenn das Experiment "A" eine große Anzahl von Proben umfasst, kann sogar ein kleiner unwichtiger Unterschied statistisch signifikant sein. Wenn das Experiment "B" nur wenige Proben umfasst, kann ein wichtiger Unterschied statistisch unbedeutend sein. Schlimmer noch (deshalb habe ich gesagt, Lammkoteletts und keine Orangen), die Waage ist möglicherweise völlig unvergleichlich (psi in der einen und kwh in der anderen).


3
Mein Eindruck ist, dass Johansson nicht über den Vergleich von p-Werten aus verschiedenen Experimenten spricht. Würde es Ihnen angesichts des Kommentars von & @ Glen_b etwas ausmachen, Ihren Beitrag zu klären, Emil? Es ist in Ordnung, einen verwandten Punkt anzusprechen ("Ich denke, J ist in Kontext A falsch, aber es hätte einen gewissen Vorteil in Kontext B"), aber es muss klar sein, dass Sie das tun. Wenn Sie sind eine Frage oder kommentieren zu fragen, löschen Sie diesen Beitrag und macht es zu einem Kommentar.
gung - Wiedereinsetzung von Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.