Interpretation des p-Wertes beim Testen von Hypothesen


36

Ich bin kürzlich auf die Arbeit "The Insignificance of Null Hypothesis Significance Testing" von Jeff Gill (1999) gestoßen . Der Autor brachte einige häufige Missverständnisse in Bezug auf Hypothesentests und p-Werte auf, zu denen ich zwei spezifische Fragen habe:

  1. Der p-Wert ist technisch , die, wie erwähnt durch das Papier, in der Regel ist es uns nicht sagen nichts über P ( H 0 | o b s e r v a t i o n )P(observation|H0)P(H0|observation), es sei denn, wir kennen zufällig die Grenzverteilungen, was beim "alltäglichen" Testen von Hypothesen selten der Fall ist. Wenn wir einen kleinen p-Wert erhalten und „lehnt die Nullhypothese“ , was genau die Wahrscheinlichkeitsrechnung ist , dass wir machen, da wir nichts sagen können ?P(H0|observation)
  2. Die zweite Frage bezieht sich auf eine bestimmte Aussage von Seite 6 (652) des Papiers:

Da der p-Wert oder der Bereich der durch Sterne angegebenen p-Werte nicht von vornherein festgelegt wird, handelt es sich nicht um die langfristige Wahrscheinlichkeit, einen Fehler vom Typ I zu machen, sondern wird in der Regel als solche behandelt.

Kann jemand erklären, was mit dieser Aussage gemeint ist?


TY für den Verweis auf das Papier
Ludovic Kuty

@ezbentley: Vielleicht ist es interessant, meine Antwort zu lesen

Antworten:


33

(Technisch gesehen ist der P-Wert die Wahrscheinlichkeit, Daten zu beobachten, die mindestens so extrem sind wie die tatsächlich beobachteten, wenn man die Nullhypothese zugrunde legt.)

Q1. Die Entscheidung, die Nullhypothese auf der Grundlage eines kleinen P-Werts abzulehnen, hängt in der Regel von der „Fisher-Disjunktion“ ab: Entweder ist ein seltenes Ereignis eingetreten oder die Nullhypothese ist falsch. Tatsächlich ist es eher die Seltenheit des Ereignisses, die der P-Wert angibt, als die Wahrscheinlichkeit, dass die Null falsch ist.

Die Wahrscheinlichkeit, dass die Null falsch ist, kann aus den experimentellen Daten nur mit Hilfe des Bayes-Theorems ermittelt werden, das die Angabe der "vorherigen" Wahrscheinlichkeit der Nullhypothese erfordert (vermutlich das, was Gill als "Grenzverteilungen" bezeichnet).

Q2. Dieser Teil Ihrer Frage ist viel schwieriger als es scheint. In Bezug auf P-Werte und Fehlerraten herrscht große Verwirrung, und das ist vermutlich das, worauf sich Gill bezieht, "das aber typischerweise als solches behandelt wird". Die Kombination von Fisherian P-Werten mit Neyman-Pearsonian-Fehlerraten wurde als inkohärentes Mischmasch bezeichnet und ist leider sehr verbreitet. Keine kurze Antwort wird hier völlig ausreichen, aber ich kann Sie auf ein paar gute Artikel hinweisen (ja, einer gehört mir). Beides wird Ihnen helfen, das Gill-Papier zu verstehen.

Hurlbert, S. & Lombardi, C. (2009). Endgültiger Zusammenbruch des entscheidungswissenschaftlichen Rahmens von Neyman-Pearson und Aufstieg des NeoFisherian. Annales Zoologici Fennici, 46 (5), 311–349. (Link zum Artikel)

Lew, MJ (2012). Schlechte statistische Praxis in der Pharmakologie (und anderen biomedizinischen Grunddisziplinen): Sie kennen P. British Journal of Pharmacology, 166 (5), 1559–1567 wahrscheinlich nicht. doi: 10.1111 / j.1476-5381.2012.01931.x (Link zum Artikel)


Danke für die Klarstellung. Ist es technisch falsche Aussage wie zu machen "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? Die Quelle der Verwirrung scheint zu sein, dass keine echte wahrscheinlichkeitstheoretische Behauptung auf die Nullhypothese erhoben wird, wenn wir sagen, dass die Null "abgelehnt" wird.

2
@ezbentley, das hängt wirklich davon ab, was du mit signifikant meinst. Dieses Wort ist in den meisten Zusammenhängen nicht wirklich aussagekräftig, da es durch den Fisher-Neyman-Pearson-Hybrid kontaminiert wurde. Wenn Sie einen sehr kleinen P-Wert erhalten haben, kann man mit Recht sagen, dass der wahre Mittelwert wahrscheinlich nicht Null ist. Es ist jedoch wichtig, den beobachteten Mittelwert anzugeben und seine Variabilität (SEM oder Konfidenzintervall) anzugeben. Vergessen Sie nicht, den Stichprobenumfang anzugeben. Ein P-Wert ist kein Ersatz für die Angabe der beobachteten Effektgröße.
Michael Lew

Vielen Dank für die Erklärung. Ich muss mich eingehender mit dem Paradigma von Fisher und Neyman-Pearson befassen.

@Michael Lew: Vielleicht könnte es interessant sein, meine Antwort zu lesen

Ihr Absatz unter Q1 ist wahrscheinlich die beste Erklärung für das Problem, das ich bisher gesehen habe. Vielen Dank.
27.

22

+1 an @MichaelLew, der Ihnen eine gute Antwort gegeben hat. Vielleicht kann ich noch einen Beitrag leisten, indem ich über Q2 nachdenke. Betrachten Sie die folgende Situation:

  • p
  • α0.05
  • p0.01

pp0.02p0.049¯pα

p


1
Ich arbeite in einem Bereich (epi), in dem es oft sehr schwierig ist zu glauben, dass die Hypothese H_0 = 0 tatsächlich zutrifft. Ich denke, dass dieser Punkt übersehen wird und viel mehr Aufmerksamkeit verdient.
Boscovich

1
α

1
+1, aber der Hinweis, dass die Bedeutung eines P-Werts unklar ist, wenn die Null falsch ist, ist irreführend. Je kleiner der P-Wert ist, desto größer ist die Diskrepanz zwischen Null und Beobachtetem. Je größer die Stichprobengröße ist, desto eher kann davon ausgegangen werden, dass die tatsächliche Effektgröße der beobachteten Effektgröße entspricht. Es ist sehr nützlich zu bemerken, dass Signifikanztests analog zur Schätzung sind.
Michael Lew

3
@MichaelLew, ich bin mir nicht sicher, ob der p-Wert diese Dinge für sich bedeutet. In Verbindung mit w / N (und insbesondere bei konstantem N) entspricht ein kleineres p einer größeren Abweichung b / t von der beobachteten Null. Sogar dann ist das eher etwas, was aus p abgeleitet werden kann, als etwas, was p bedeutet . Es ist auch wahr, dass w / größere N beobachtete Effektgrößen näher an wahren ES liegen sollten, aber es ist mir weniger klar, welche Rolle p dort spielt. ZB, w / a false null, der wahre Effekt könnte immer noch sehr klein sein, & w / large N wir würden erwarten, dass das beobachtete ES nahe beieinander liegt, aber p könnte immer noch groß sein.
gung - Reinstate Monica

1
...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"α

8

Ich möchte einen Kommentar zum Thema "Die Bedeutungslosigkeit von Nullhypothesen-Signifikanztests" abgeben, der jedoch die Frage des OP nicht beantwortet.

pH0H0:{θ=0}θ=ϵϵϵ0ϵ0


3
+1 Ja, das eigentliche Problem beim Testen konventioneller Hypothesen ist die Beantwortung einer Frage, an deren Beantwortung Sie nicht wirklich interessiert sind. ". Gewünscht ist natürlich in der Regel: "Wie hoch ist die Wahrscheinlichkeit, dass meine Forschungshypothese zutrifft?" Die Fehlinterpretation ergibt sich im Allgemeinen aus Versuchen, den frequentistischen Test in bayesianischen Begriffen zu behandeln.
Dikran Beuteltier

1
Es ist keine gute Idee, die Bedeutung von P-Werten und Stichprobengröße zu trennen. Ein kleinerer P-Wert zeigt eine größere Effektgröße bei einer bestimmten Stichprobengröße an, und für einen bestimmten P-Wert zeigt eine größere Stichprobengröße an, dass die wahre Effektgröße wahrscheinlich näher an der beobachteten Effektgröße liegt. Signifikanztests sollten im Zusammenhang mit der Schätzung und nicht mit Fehlern betrachtet werden. Eine größere Stichprobe liefert immer mehr Informationen - wie sie zu interpretieren ist, liegt beim Experimentator. Die Beschwerde über die vernachlässigbare Auswirkung einer großen Stichprobe ist nur ein Problem für das Testen der Neyman-Pearson-Hypothese.
Michael Lew
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.