Missverständnis eines P-Wertes?


16

Ich habe viel darüber gelesen, wie man einen P-Wert richtig interpretiert, und nach allem, was ich gelesen habe, sagt der p-Wert NICHTS über die Wahrscheinlichkeit aus, dass die Nullhypothese wahr oder falsch ist. Beim Lesen der folgenden Anweisung:

Der p - Wert repräsentiert die Wahrscheinlichkeit, einen Fehler vom Typ I zu machen oder die Nullhypothese abzulehnen, wenn sie wahr ist. Je kleiner der p-Wert ist, desto geringer ist die Wahrscheinlichkeit, dass Sie die Nullhypothese fälschlicherweise ablehnen.

EDIT: Und dann 5 Minuten später las ich:

Fehlerhafte Interpretationen von P-Werten sind sehr häufig. Der häufigste Fehler besteht darin, einen P-Wert als die Wahrscheinlichkeit eines Fehlers zu interpretieren, indem eine echte Nullhypothese (ein Fehler vom Typ I) zurückgewiesen wird.

Das hat mich verwirrt. Was ist richtig? Und kann jemand bitte erklären, wie man den p-Wert richtig interpretiert und wie er sich richtig auf die Wahrscheinlichkeit bezieht, einen Typ-I-Fehler zu machen?


1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueDer p - Wert repräsentiert die a priori Wahrscheinlichkeit, einen Fehler vom Typ I zu machen, dh die Nullhypothese unter der Annahme, dass dies wahr ist, abzulehnen.
TTNPHNS

4
@Paul: Die Wahrscheinlichkeit, dass die Null zurückgewiesen wird, wenn die Null wahr ist, ist die Wahrscheinlichkeit eines Fehlers vom Typ I, der nicht mit einem p-Wert identisch ist. Die Wahrscheinlichkeit eines Fehlers vom Typ I entspricht (für kontinuierliche Zufallsvariablen) dem gewählten Signifikanzniveau, siehe auch meine Antwort unten.

Ja, ich verstehe jetzt, du hast absolut recht.
Paul

4
@fcoppens Die Wahrscheinlichkeit eines Fehlers vom Typ I entspricht nur dann der vorgewählten Alpha-Stufe, wenn Sie davon ausgehen, dass die Nullhypothese wahr ist. In einem bedingungslosen Fall wissen Sie nicht, ob die Null richtig oder falsch ist, und können daher eine Wahrscheinlichkeit eines Fehlers vom Typ I nur angeben, wenn Sie eine vorherige Wahrscheinlichkeit für die Wahrheit der Null angeben.
Michael Lew

@Michael Lew: Diese Konditionierung auf der Null steht in meiner Antwort unten?

Antworten:


25

Aufgrund Ihrer Kommentare werde ich zwei separate Abschnitte erstellen:

p-Werte

Beim Testen statistischer Hypothesen finden Sie statistische Belege für die alternative Hypothese. Wie ich im Folgenden erklärt habe, wenn wir die Nullhypothese nicht ablehnen? , es ist ähnlich wie 'Beweis durch Widerspruch' in der Mathematik.

Wenn wir also 'statistische Beweise' finden wollen, nehmen wir das Gegenteil an, das wir von dem bezeichnen, was wir versuchen zu beweisen, was wir H 1 nennen . Danach ziehen wir eine Stichprobe und berechnen aus der Stichprobe eine sogenannte Teststatistik (zB einen t-Wert in einem t-Test).H0H1

Dann können wir, da wir annehmen, dass wahr ist und unsere Stichprobe zufällig aus der Verteilung unter H 0 gezogen wird , die Wahrscheinlichkeit berechnen, Werte zu beobachten, die den aus unserer (Zufalls-) Stichprobe abgeleiteten Wert überschreiten oder diesem entsprechen. Diese Wahrscheinlichkeit wird als p-Wert bezeichnet.H0H0

Wenn dieser Wert "klein genug" ist, dh kleiner als das von uns gewählte Signifikanzniveau, lehnen wir und betrachten H 1 als "statistisch bewiesen".H0H1

Dabei sind mehrere Dinge wichtig:

  • Wir haben Wahrscheinlichkeiten unter der Annahme abgeleitet, dass H0 wahr ist
  • wir haben eine zufallsstichprobe aus der unter h 0 angenommenen verteilung gezogenH0
  • wir entscheiden uns, Hinweise für gefunden zu haben, wenn die aus der Zufallsstichprobe abgeleitete Teststatistik eine geringe Wahrscheinlichkeit hat, überschritten zu werden. Es ist also nicht unmöglich, dass es überschritten wird, während H 0 wahr ist, und in diesen Fällen machen wir einen Fehler vom Typ I. H1H0

Was ist also ein Fehler vom Typ I: Ein Fehler vom Typ I wird gemacht, wenn die zufällig aus gezogene Stichprobe zu der Schlussfolgerung führt, dass H 0 falsch ist, während es in Wirklichkeit wahr ist.H0H0

Beachten Sie, dass dies impliziert, dass ein p-Wert nicht die Wahrscheinlichkeit eines Fehlers vom Typ I ist . In der Tat ist ein Fehler vom Typ I eine falsche Entscheidung durch den Test und die Entscheidung kann nur durch Vergleichen des p-Wertes mit dem gewählten Signifikanzniveau getroffen werden, mit einem p-Wert allein kann man keine Entscheidung treffen, es erfolgt erst nach dem Vergleichen Der p-Wert des gewählten Signifikanzniveaus, auf dem eine Entscheidung getroffen wird , und solange keine Entscheidung getroffen wird, ist der Fehler vom Typ I nicht einmal definiert.

Was ist dann der p-Wert? Die möglicherweise falsche Zurückweisung von ist auf die Tatsache zurückzuführen, dass wir unter H 0 eine Zufallsstichprobe ziehen. Es kann also sein, dass wir beim Ziehen der Stichprobe Pech haben und dass dies zu Pech führt zu einer falschen Ablehnung von HH0H0 . Der p-Wert (obwohl dies nicht vollständig korrekt ist) entspricht also eher der Wahrscheinlichkeit, eine "schlechte Stichprobe" zu ziehen. Die korrekte Interpretation des p-Wertes ist, dass es die Wahrscheinlichkeit ist, dass die Teststatistik den Wert der Teststatistik, die aus einer zufällig gezogenen Stichprobe unter H 0 abgeleitet wurde, überschreitet oder diesem entsprichtH0H0


Falsche Entdeckungsrate (FDR)

Wie oben erläutert, betrachtet man dies jedes Mal, wenn die Nullhypothese zurückgewiesen wird, als "statistischen Beweis" für . Wir haben also neue wissenschaftliche Erkenntnisse gefunden, daher spricht man von einer Entdeckung . Oben wurde auch erklärt, dass wir falsche Entdeckungen machen können (dh H 0 fälschlicherweise ablehnen ), wenn wir einen Fehler vom Typ I machen. In diesem Fall haben wir einen falschen Glauben an eine wissenschaftliche Wahrheit. Wir wollen nur wirklich wahre Dinge entdecken und deshalb versucht man, die falschen Entdeckungen auf ein Minimum zu beschränken, dh man wird auf einen Typ-I-Fehler kontrollieren. Es ist nicht so schwer zu erkennen, dass die Wahrscheinlichkeit eines Fehlers vom Typ I das gewählte Signifikanzniveau α ist . Um also Fehler vom Typ I zu kontrollieren, wird ein α korrigiertH1H0αα-Ebene, die Ihre Bereitschaft widerspiegelt, "falsche Beweise" zu akzeptieren.

Intuitiv bedeutet dies, dass ein Bruchteil dieser Tests zu einer falschen Schlussfolgerung führt , wenn wir eine große Anzahl von Proben ziehen und mit jeder Probe den Test durchführen. Es ist wichtig zu beachten, dass wir den Durchschnitt über viele Stichproben bilden . also gleich teste viele proben. α

Wenn wir dasselbe Beispiel für viele verschiedene Tests verwenden , liegt ein mehrfacher Testfehler vor (siehe mein Anser auf familienbezogenen Fehlergrenze: Führt die Wiederverwendung von Datensätzen für verschiedene Studien unabhängiger Fragen zu mehreren Testproblemen? ). In diesem Fall kann man die agr; -Inflation unter Verwendung von Techniken steuern, um die familienweise Fehlerrate (FWER) zu steuern , wie z. B. eine Bonferroni-Korrektur.α

Ein anderer Ansatz als FWER besteht darin, die Rate falscher Entdeckungen (FDR) zu steuern. . In diesem Fall einer steuert die Anzahl der falschen Entdeckungen (FD) unter allen Entdeckungen (D), so steuert ein FDD , D ist die Anzahl der abgelehnten .H0

Die Fehlerwahrscheinlichkeit vom Typ I hat also damit zu tun, dass derselbe Test an vielen verschiedenen Stichproben durchgeführt wird. Bei einer großen Anzahl von Stichproben konvergiert die Fehlerwahrscheinlichkeit des Typs I mit der Anzahl von Stichproben, die zu einer falschen Zurückweisung, dividiert durch die Gesamtzahl der gezogenen Stichproben, führt .

Das FDR hat mit vielen Tests an derselben Stichprobe zu tun und konvergiert bei einer großen Anzahl von Tests zur Anzahl der Tests, bei denen ein Fehler vom Typ I gemacht wird (dh zur Anzahl der falschen Entdeckungen), dividiert durch die Gesamtzahl der Ablehnungen von (dh die Gesamtzahl der Entdeckungen)H0.

Beachten Sie, dass Sie die beiden obigen Absätze vergleichen müssen:

  1. Der Kontext ist anders; Ein Test und viele Proben versus viele Tests und eine Probe.
  2. Der Nenner für die Berechnung der Fehlerwahrscheinlichkeit vom Typ I unterscheidet sich deutlich vom Nenner für die Berechnung des FDR. Die Zähler sind in gewisser Weise ähnlich, haben aber einen anderen Kontext.

Der FDR gibt an, dass Sie bei einer Stichprobe mit mehreren Tests 1000 Entdeckungen (dh Ablehnungen von ) mit einem FDR von 0,38 0,38 × erhaltenH0 falsche Entdeckungen.0.38×1000


5
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0Ist so Ist es nicht "gleich oder größer"? Der P-Wert ist die Wahrscheinlichkeit, dass wir unter wahrem H0 diesen oder einen stärkeren Unterschied oder Zusammenhang als den tatsächlich beobachteten beobachten.
TTNPHNS

@ttnphns Für eine kontinuierliche Teststatistik gibt es keinen Unterschied, da das Maß für einen Punkt Null ist. Für eine diskrete Teststatistik haben Sie Recht (+1). Ich habe den Text entsprechend geändert.

1
Sie ziehen eine sehr nützliche Unterscheidung zwischen P-Werten und Fehlerraten des Typs I, aber ich denke, Sie müssen vor dem Wort "bewiesen" vorsichtiger sein. Das Hinzufügen des Modifikators "statistisch" mildert es meiner Meinung nach nicht ausreichend.
Michael Lew

1
Sie haben mit Beweisen so umgegangen, als ob sie nur einen binären Zustand hätten: existieren und nicht existieren. Im Standardverständnis nichtstatistischer Beweise ist das Wort Konzept abgestuft vorhanden und komplizierter, als eine einzelne Dimension der Stärke erfassen kann. Die Schwierigkeit ergibt sich aus der Unvereinbarkeit von Überlegungen zur Fehlerrate mit gewöhnlichen Interpretationen von Beweisen. Es würde mich sehr interessieren, einen Bericht zu lesen, der die nicht-binäre Interpretation von "Beweisen" im Rahmen des FDR erfasst. (Ich habe noch keinen gesehen.)
Michael Lew

1
Danke für die Verbesserung. Ich habe gestern Abend die entsprechende Änderung vorgenommen und Ihren Beitrag gutgeschrieben.
Antoni Parellada

4

Die erste Aussage ist nicht ganz richtig.

Aus einem raffinierten Artikel über das Missverständnis von Bedeutung: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

"[Diese Aussage] mag ähnlich aussehen wie die Definition eines Fehlers vom Typ I (dh die Wahrscheinlichkeit, das H0 zurückzuweisen, obwohl dies tatsächlich zutrifft), aber nachdem das H0 tatsächlich zurückgewiesen wurde, wäre diese Entscheidung genau dann falsch, wenn Die Wahrscheinlichkeit, dass Sie die falsche Entscheidung treffen, ist also p (H0), und diese Wahrscheinlichkeit ... kann nicht mit einem Nullhypothesen-Signifikanztest abgeleitet werden. "

Einfacher ausgedrückt, um die Wahrscheinlichkeit einzuschätzen, dass Sie H0 falsch abgelehnt haben, benötigen Sie die Wahrscheinlichkeit, dass H0 wahr ist, die Sie mit diesem Test einfach nicht erhalten können.


Vielen Dank! Wenn ich also den ersten Teil von statisticsdonewrong.com/p-value.html lese , kommt der Autor zu dem Schluss, dass der FDR bei 38% liegt und die Wahrscheinlichkeit eines Fehlers vom Typ I daher bei 38% liegt.
rb612

FDR ist False Discovery Rate und unterscheidet sich stark von Typ-I-Fehlern. Die Antwort auf Ihre Frage lautet also Nein. FDR hat mit mehreren Tests zu tun, dh wenn Sie mehrere Tests mit demselben Beispiel durchführen, lesen Sie stats.stackexchange.com/questions/164181/… . FDR ist eine Alternative zu Familywise Error Rate, aber um zu erklären, dass die Anzahl der Zeichen in einem Kommentar zu begrenzt ist.

Ich habe meiner Antwort einen zweiten Abschnitt hinzugefügt, um FDR zu erklären.

1
Ebenso wie es nicht möglich ist, die Wahrscheinlichkeit zu bestimmen, dass H0 ohne vorherige Angabe wahr ist, ist es nicht möglich, FDR ohne vorherige Angabe zu bestimmen. Seien Sie vorsichtig bei der Interpretation der FDR-Artikel, da die darin verwendeten Prioritäten möglicherweise nicht unbedingt für Ihre eigenen experimentellen Umstände relevant sind.
Michael Lew

1

Die korrekte Interpretation eines p-Wertes ist die bedingte Wahrscheinlichkeit eines Ergebnisses, das für die alternative Hypothese mindestens so gut geeignet ist wie der beobachtete Wert (mindestens "extrem"), vorausgesetzt, die Nullhypothese ist wahr . Inkorrekte Interpretationen beinhalten im Allgemeinen entweder eine marginale Wahrscheinlichkeit oder ein Umschalten der Bedingung:

p-Wert=P(Mindestens so extrem wie das beobachtete Ergebnis|H0)P(Typ I Fehler).

-1

Mit dem p-Wert können wir bestimmen, ob die Nullhypothese (oder die behauptete Hypothese) abgelehnt werden kann oder nicht. Wenn der p-Wert kleiner als das Signifikanzniveau α ist, stellt dies ein statistisch signifikantes Ergebnis dar und die Nullhypothese sollte verworfen werden. Ist der p-Wert größer als das Signifikanzniveau α, kann die Nullhypothese nicht verworfen werden. Dies ist der ganze Grund, warum Sie den p-Wert nachschlagen müssen, wenn Sie die Tabelle verwenden oder einen Online-Rechner wie diesen, den p-Wert-Rechner , verwenden, um den p-Wert aus der Teststatistik zu ermitteln.

Jetzt weiß ich, dass Sie Fehler vom Typ I und II erwähnt haben. Das hat wirklich nichts mit dem p-Wert zu tun. Dies hat mit den Originaldaten zu tun, wie dem verwendeten Stichprobenumfang und den für die Daten erhaltenen Werten. Wenn beispielsweise die Stichprobengröße zu klein ist, kann dies zu einem Fehler vom Typ I führen.


2
-1. Es tut mir leid, Sie mit einer Ablehnung auf unserer Website zu begrüßen, aber diese Antwort ist eindeutig falsch: Es ist einfach nicht der Fall, dass der p-Wert die Wahrscheinlichkeit der Wahrheit der Nullhypothese ist. Dies wird in vielen Threads über p-Werte und Hypothesentests ausführlich diskutiert, z. B. stats.stackexchange.com/questions/31 .
whuber

1
Ich habe die ursprüngliche Antwort ein wenig geändert, um sie präziser zu gestalten.
user1445657
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.