Sind kleinere p-Werte überzeugender?

31

Ich habe mich über Werte, Typ 1-Fehlerraten, Signifikanzniveaus, Leistungsberechnungen, Effektgrößen und die Debatte zwischen Fisher und Neyman-Pearson informiert. Das hat mich ein bisschen überwältigt. Ich entschuldige mich für die Textwand, aber ich hielt es für notwendig, einen Überblick über mein derzeitiges Verständnis dieser Konzepte zu geben, bevor ich zu meinen eigentlichen Fragen überging. $p$

Wie ich gesehen habe, ist ein Wert lediglich ein Maß für die Überraschung, die Wahrscheinlichkeit, ein Ergebnis zu erhalten, das mindestens so extrem ist, vorausgesetzt, die Nullhypothese ist wahr. Fisher wollte ursprünglich, dass es sich um eine kontinuierliche Maßnahme handelt. $p$

Im Neyman-Pearson-Framework wählen Sie im Voraus ein Signifikanzniveau aus und verwenden dieses als (willkürlichen) Grenzwert. Das Signifikanzniveau entspricht der Fehlerrate Typ 1. Es wird durch die Langzeitfrequenz definiert, dh wenn Sie ein Experiment 1000 Mal wiederholen und die Nullhypothese zutrifft, würden etwa 50 dieser Experimente aufgrund der Stichprobenvariabilität einen signifikanten Effekt haben. Mit der Wahl eines Signifikanzniveaus schützen wir uns mit einer gewissen Wahrscheinlichkeit vor diesen Fehlalarmen. Werte erscheinen traditionell nicht in diesem Rahmen. $P$

Wenn wir einen Wert von 0,01 finden, bedeutet dies nicht , dass die Fehlerrate des Typs 1 0,01 beträgt, der Fehler des Typs 1 wird a priori angegeben. Ich glaube, dies ist eines der Hauptargumente in der Debatte zwischen Fisher und NP, da Werte häufig als 0,05 *, 0,01 **, 0,001 *** angegeben werden. Dies könnte die Leute irreführen, zu sagen, dass der Effekt bei einem bestimmten Wert signifikant ist, anstatt bei einem bestimmten Signifikanzwert. $p$ $p$ $p$

Mir ist auch klar, dass der Wert eine Funktion der Stichprobengröße ist. Daher kann es nicht als absolutes Maß verwendet werden. Ein kleiner Wert könnte in einem großen Stichprobenexperiment auf einen kleinen, nicht relevanten Effekt hindeuten. Um dem entgegenzuwirken, ist es wichtig, eine Berechnung der Stärke / Effektgröße durchzuführen, wenn Sie die Stichprobengröße für Ihr Experiment bestimmen. Werte sagen uns, ob es einen Effekt gibt, nicht, wie groß er ist. Siehe Sullivan 2012 . $p$ $p$ $P$

Meine Frage: Wie kann ich die Tatsache in Einklang bringen, dass der Wert ein Maß für Überraschung ist (kleiner = überzeugender) und gleichzeitig nicht als absolutes Maß angesehen werden kann? $p$

Was mich verwirrt, ist Folgendes: Können wir uns auf einen kleinen Wert sicherer verlassen als auf einen großen? Im fischerischen Sinne würde ich ja sagen, wir sind eher überrascht. Im NP-Rahmen würde die Wahl eines niedrigeren Signifikanzniveaus bedeuten, dass wir uns stärker vor falschen Positiven schützen. $p$

Andererseits hängen die Werte von der Stichprobengröße ab. Sie sind kein absolutes Maß. Daher können wir nicht einfach sagen, dass 0,001593 signifikanter als 0,0439 ist. Dies würde jedoch in Fischers Rahmen implizieren: Wir wären über einen solch extremen Wert mehr überrascht. Es wird sogar darüber diskutiert, dass der Begriff " hoch signifikant " eine falsche Bezeichnung ist: Ist es falsch, die Ergebnisse als "hoch signifikant" zu bezeichnen? $p$

Ich habe gehört, dass Werte in einigen Bereichen der Wissenschaft nur dann als wichtig angesehen werden, wenn sie kleiner als 0,0001 sind, während in anderen Bereichen Werte um 0,01 bereits als hoch signifikant angesehen werden. $p$

Verwandte Fragen:

— Zenit
quelle

Vergessen Sie auch nicht, dass ein "signifikanter" p-Wert nichts über Ihre Theorie aussagt. Dies wird sogar von den eifrigsten Verteidigern zugegeben: Präzise statistische Aussagekraft: Begründung, Gültigkeit und Nützlichkeit. Siu L. Chow. VERHALTENS- UND HIRNWISSENSCHAFTEN (1998) 21, 169–239 Daten werden interpretiert, wenn sie in Beweise umgewandelt werden. Die Annahmen, auf denen eine Interpretation basiert, müssen aufgezählt und nach Möglichkeit überprüft werden. Was wird gemessen?

— Livid

2

+1, aber ich würde Sie ermutigen, die Frage zu fokussieren und die Nebenfragen zu entfernen. Wenn Sie daran interessiert sind, warum manche Leute argumentieren, dass Konfidenzintervalle besser sind als p-Werte, stellen Sie eine separate Frage (stellen Sie jedoch sicher, dass diese zuvor nicht gestellt wurde).

— Amöbe sagt Reinstate Monica

3

Abgesehen davon, wie ist Ihre Frage kein Duplikat von Warum sind niedrigere p-Werte kein Beweis mehr gegen die Null? Hast du diesen Thread gesehen? Vielleicht können Sie es der Liste am Ende Ihres Beitrags hinzufügen. Siehe auch eine ähnliche Frage. Welchen Sinn macht es, p-Werte miteinander zu vergleichen? , aber ich zögere es, diesen Thread zu empfehlen, da die dort akzeptierte Antwort IMHO falsch / irreführend ist (siehe Diskussion in den Kommentaren).

— Amöbe sagt Reinstate Monica

2

Über p-Werte hat Gelman viel zu sagen. zB 1. hier (Gelman und Stern, Am.Stat. 2006 pdf) , 2. hier in seinem Blog , 3. wieder in seinem Blog und vielleicht auch 4. hier (Gelman, 2013 veröffentlichter Kommentar zu einem anderen Paper, pdf)

— Glen_b - Setzen Sie Monica

2

Danke für die Links, @Glen_b; Ich kenne das Gelman & Stern-Papier gut und verweise oft selbst darauf, habe dieses 2013-Papier oder seine Diskussion jedoch noch nicht gesehen. Ich möchte OP jedoch davor warnen, Gelman & Stern im Zusammenhang mit seiner / ihrer Frage zu interpretieren. G & S bietet ein schönes Beispiel mit zwei Studien, in denen ein Effekt auf

und

geschätzt wird . in einem Fall

, in einem anderen

, aber der Unterschied zwischen den Schätzungen ist nicht signifikant. Dies ist wichtig zu bedenken, aber wenn wir jetzt nach dem OP fragen, ob die erste Studie überzeugender ist, würde ich mit Sicherheit Ja sagen.

25 \pm 10

$25\pm 10$

10 \pm 10

$10\pm 10$

p < 0.01

$p<0.01$

p > 0.05

$p>0.05$

— Amöbe sagt Reinstate Monica

18

Sind kleinere Werte "überzeugender"? Ja, natürlich sind sie. $p$

Im Fisher-Framework ist value eine Quantifizierung der Beweismenge gegen die Nullhypothese. Die Beweise können mehr oder weniger überzeugend sein; je kleiner der wert ist, desto überzeugender ist er. Beachten Sie, dass in jedem Experiment mit fester Stichprobengröße der Wert monoton mit der Effektgröße zusammenhängt, wie @Scortchi in seiner Antwort (+1) deutlich hervorhebt. Kleinere Werte entsprechen also größeren Effektgrößen; Natürlich überzeugen sie mehr! $p$ $p$ $n$ $p$ $p$

Im Neyman-Pearson-Framework besteht das Ziel darin, eine binäre Entscheidung zu erhalten: Entweder sind die Beweise "signifikant" oder nicht. Durch die Wahl der Schwelle garantieren wir, dass wir nicht mehr als falsch positive Ergebnisse erhalten. Beachten Sie, dass unterschiedliche Personen bei der Betrachtung der gleichen Daten unterschiedliche Werte haben können. Vielleicht würde ich, wenn ich eine Abhandlung aus einem Bereich lese, in dem ich skeptisch bin, die Ergebnisse mit z. B. nicht persönlich als "signifikant" betrachten , obwohl die Autoren sie als signifikant bezeichnen. Mein persönliches könnte auf oder so eingestellt sein. Je niedriger der gemeldete $\alpha$ $\alpha$ $\alpha$ $p=0.03$ $\alpha$ $0.001$ $p$ -Wert, desto skeptischer Leser wird es überzeugen können! Daher sind wiederum niedrigere Werte überzeugender. $p$

Derzeit ist es üblich, Fisher- und Neyman-Pearson-Ansätze zu kombinieren: Wenn , werden die Ergebnisse als "signifikant" bezeichnet, und der Wert wird [genau oder ungefähr] angegeben und als Maß für die Überzeugungskraft verwendet (durch Markieren) mit Sternen, Ausdrücke als "hochbedeutend" usw.); wenn , dann heißen die Ergebnisse "nicht signifikant" und das war's. $p<\alpha$ $p$ $p>\alpha$

Dies wird üblicherweise als "hybrider Ansatz" bezeichnet, und tatsächlich handelt es sich um einen hybriden Ansatz. Einige Leute argumentieren, dass dieser Hybrid inkohärent ist; Ich bin eher anderer Meinung. Warum ist es ungültig, zwei gültige Dinge gleichzeitig zu tun?

Weitere Lektüre:

Ist der "hybride" Ansatz zwischen Fisher und Neyman-Pearson für statistische Tests wirklich ein "inkohärenter Mischmasch"? - meine Frage zum "Hybrid". Es gab einige Diskussionen, aber ich bin mit keiner der Antworten zufrieden und plane, irgendwann auf diesen Thread zurückzukommen.
Ist es falsch, Ergebnisse als "hoch signifikant" zu bezeichnen? - siehe meine gestrige Antwort, die im Wesentlichen sagt: Es ist nicht falsch (aber vielleicht ein bisschen schlampig).
$p$

— Amöbe sagt Reinstate Monica
quelle

1

(+1) Siehe jedoch Abschnitt 4.4 der Arbeit von Michael Lew: Einige würden die Beweismenge lieber mit der Wahrscheinlichkeit als mit dem p-Wert gleichsetzen, was einen Unterschied macht, wenn p-Werte aus Experimenten mit verschiedenen Stichprobenräumen verglichen werden. Sie sprechen also von "Indizieren" oder "Kalibrieren" der Beweise / Wahrscheinlichkeiten.

— Scortchi - Wiedereinsetzung von Monica

Entschuldigung, ich wollte genauer sagen, dass in dieser Ansicht der relative "Beweis" (oder die "Unterstützung") für verschiedene Werte, die ein Parameter annehmen kann, das Verhältnis ihrer Wahrscheinlichkeitsfunktionen ist, die für die beobachteten Daten bewertet wurden. In Lews Beispiel ist ein Kopf von sechs Würfen der gleiche Beweis gegen die Nullhypothese, unabhängig davon, ob das Stichprobenschema binomisch oder negativ ist. Dennoch unterscheiden sich die p-Werte - Sie könnten sagen, dass Sie unter einem Stichprobenschema weniger wahrscheinlich so viele Beweise gegen die Null angehäuft haben. (Natürlich Rechte an dem Wort "Beweise", wie bei "signifikant", ...

— Scortchi - Wiedereinsetzung von Monica

... noch nicht fest etabliert.)

— Scortchi - Reinstate Monica

Hmmm, vielen Dank, dass Sie mich auf diesen Abschnitt aufmerksam gemacht haben. Ich habe es schon einmal gelesen, aber anscheinend seine Wichtigkeit übersehen. Ich muss sagen, dass es mich im Moment verwirrt. Lew schreibt, dass die p-Werte nicht durch Berücksichtigung von Stoppregeln "angepasst" werden sollten; aber ich sehe keine Anpassungen in seinen Formeln 5-6. Was wären "unangepasste" p-Werte?

— Amöbe sagt Reinstate Monica

1

@ Scortchi: Hmmm. Ich verstehe wirklich nicht, warum einer dieser p-Werte "angepasst" ist und ein anderer nicht; warum nicht umgekehrt? Ich bin von Lews Argumentation hier überhaupt nicht überzeugt und verstehe sie nicht einmal ganz. Als ich darüber nachdachte, fand ich Lews Frage aus dem Jahr 2012 zum Wahrscheinlichkeitsprinzip und zu den p-Werten und gab dort eine Antwort. Der Punkt ist, dass man keine unterschiedlichen Stoppregeln benötigt, um unterschiedliche p-Werte zu erhalten. Man kann einfach verschiedene Teststatistiken betrachten. Vielleicht können wir dort weiter diskutieren, ich würde mich über Ihren Beitrag freuen.

— Amöbe sagt Reinstate Monica

9

Ich weiß nicht, was damit gemeint ist, dass kleinere p-Werte "besser" oder wir "sicherer" sind. Aber p-Werte als Maß dafür zu betrachten, wie überrascht wir von den Daten sein sollten, erscheint uns vernünftig genug, wenn wir die Nullhypothese für richtig halten; Der p-Wert ist eine monotone Funktion der von Ihnen gewählten Teststatistikum die Diskrepanz mit der Nullhypothese in eine Richtung zu messen, an der Sie interessiert sind, und um sie in Bezug auf ihre Eigenschaften anhand eines relevanten Stichprobenverfahrens aus einer Population oder einer zufälligen Zuordnung von experimentellen Behandlungen zu kalibrieren. "Signifikanz" ist ein Fachbegriff für p-Werte, die entweder über oder unter einem bestimmten Wert liegen. Selbst diejenigen, die kein Interesse daran haben, Signifikanzniveaus zu spezifizieren und Hypothesen zu akzeptieren oder abzulehnen, tendieren daher dazu, Ausdrücke wie "hoch signifikant" - bloße Einhaltung von Konventionen - zu vermeiden.

In Bezug auf die Abhängigkeit der p-Werte von der Stichprobengröße und der Effektgröße kann es zu Verwirrung kommen, da z. B. 474 Köpfe aus 1000 Würfen für jemanden, der die Münze für fair hält, weniger überraschend sein sollten als 2 aus 10 der Stichprobenanteil weicht im ersteren Fall nur geringfügig von 50% ab - die p-Werte sind jedoch in etwa gleich. Aber wahr oder falsch lassen Sie keine Grade zu; Der p-Wert macht das, was von ihm verlangt wird: Oft sind Konfidenzintervalle für einen Parameter genau das, was beurteilt werden soll, wie genau ein Effekt gemessen wurde, und die praktische oder theoretische Bedeutung seiner geschätzten Größe.

— Scortchi - Wiedereinsetzung von Monica
quelle

1

p = 0.04

$p=0.04$

p = 0.000004

$p=0.000004$

1

Vielen Dank für die Kommentare und Lesevorschläge. Ich hatte noch etwas Zeit, um über dieses Problem nachzudenken, und ich glaube, ich habe es geschafft, meine Hauptverwirrungsquellen zu isolieren.

Anfangs dachte ich, es gäbe eine Zweiteilung zwischen der Betrachtung des p-Werts als Maß für die Überraschung und der Aussage, dass dies kein absolutes Maß ist. Jetzt ist mir klar, dass diese Aussagen sich nicht unbedingt widersprechen. Ersteres erlaubt es uns, mehr oder weniger sicher zu sein, dass ein beobachteter Effekt extrem ist (sogar ein Unterschied?), Verglichen mit anderen hypothetischen Ergebnissen desselben Experiments. Während letztere nur sagt, dass das, was in einem Experiment als überzeugender p-Wert angesehen werden kann, in einem anderen Experiment möglicherweise überhaupt nicht beeindruckend ist, z. B. wenn sich die Stichprobengrößen unterscheiden.
Die Tatsache, dass einige Wissenschaftsbereiche eine andere Basislinie starker p-Werte verwenden, könnte entweder eine Widerspiegelung des Unterschieds in gemeinsamen Stichprobengrößen (Astronomie, klinische, psychologische Experimente) und / oder ein Versuch sein, die Effektgröße in einem p- Wert. Letzteres ist jedoch eine inkorrekte Verschmelzung der beiden.
Die Signifikanz ist eine Ja / Nein-Frage, die auf dem Alpha basiert, das vor dem Experiment ausgewählt wurde. Ein p-Wert kann daher nicht signifikanter sein als ein anderer, da er entweder kleiner oder größer als das gewählte Signifikanzniveau ist. Andererseits wird ein kleinerer p-Wert überzeugender sein als ein größerer (für einen ähnlichen Stichprobenumfang / identisches Experiment, wie in meinem ersten Punkt erwähnt).
Konfidenzintervalle vermitteln von Natur aus die Effektgröße und sind daher eine gute Wahl, um sich vor den oben genannten Problemen zu schützen.

— Zenit
quelle

0

Der p-Wert kann kein Maß für die Überraschung sein, da er nur ein Maß für die Wahrscheinlichkeit ist, wenn die Null wahr ist. Wenn die Null wahr ist, ist jeder mögliche Wert von p gleich wahrscheinlich. Man kann sich nicht über einen p-Wert wundern, bevor man sich entscheidet, die Null abzulehnen. Sobald man sich für einen Effekt entscheidet, verschwindet die Bedeutung des p-Wertes. Man meldet es lediglich als Glied in einer relativ schwachen induktiven Kette, um die Zurückweisung der Null zu rechtfertigen oder nicht. Aber wenn es abgelehnt wurde, hat es eigentlich keine Bedeutung mehr.

— John
quelle

+1 für die Tatsache "Wenn die Null ist wahr, dann ist jeder p-Wert gleich wahrscheinlich", aber ich denke, dies gilt nur für kontinuierliche Zufallsvariablen?

Beachte, dass ich sagte, jeder "mögliche" Wert von p ist gleich wahrscheinlich. Dies gilt also für diskrete oder kontinuierliche Variablen. Bei diskreten Variablen ist die Anzahl der möglichen Werte geringer.

— John

H_{0}

$H_0$

Ich glaube, die führende Antwort zeigt, dass dies kein Problem ist. Der Grund dafür, dass die Verteilung ungleichmäßig aussieht, ist, dass die möglichen p-Werte ungleichmäßig verteilt sind. Glenn nennt es sogar quasi Uniform. Ich nehme an, dass es bei einigen sehr spärlichen Tests von Binomialdaten mit kleinen Ns möglich ist, dass die Wahrscheinlichkeit spezifischer p-Werte ungleich ist, aber wenn Sie die Wahrscheinlichkeit von p-Werten in einem bestimmten Bereich berücksichtigen, ist sie gleichmäßiger.

— John

1

H_{0} : μ = 0.5

$H_0: \mu=0.5$

p = 0.0000000004

$p=0.0000000004$

H_{0} : μ = 0.45

$H_0: \mu=0.45$

p = 0.0000000001

$p=0.0000000001$

μ = 0.45

$\mu=0.45$