p-Wert-Subtilität: größer-gleich vs. größer


11

Während ich Wassermanns Buch All of Statistics lese, bemerke ich eine feine Subtilität in der Definition von p-Werten, die ich nicht verstehen kann. Informell definiert der Wassermann den p-Wert als

[..] die Wahrscheinlichkeit (unter H0 ), einen Wert der Teststatistik zu beobachten, der gleich oder extremer als der tatsächlich beobachtete Wert ist .

Betonung hinzugefügt. Das gleiche formeller (Satz 10.12):

Angenommen, der Test der Größe α hat die Form

lehne H0 genau dann ab, wenn T(Xn)cα .

Dann,

p-value=supθΘ0Pθ0[T(Xn)T(xn)]

wobei der beobachtete Wert von . Wenn dann xnXnΘ0={θ0}

p-value=Pθ0[T(Xn)T(xn)]

Darüber hinaus definiert Wassermann den p-Wert von Pearson's χ2 Test (und anderen Tests analog) wie folgt:

p-value=P[χk12>T].

Der Teil, den ich um Klarstellung bitten möchte, ist das Gleichheitszeichen ( ) in der ersten und das Großzeichen ( > ) in der zweiten Definition. Warum schreiben wir nicht \ ge T.>T , was dem ersten Zitat von " gleich oder extremer" entspricht?

Ist das reine Bequemlichkeit, damit wir den p-Wert als berechnen ? Ich stelle fest, dass R auch die Definition mit dem Zeichen , z . B. in .1F(T)>chisq.test


5
Ist Ihnen bekannt, dass der p-Wert für beide Definitionen gleich ist, wenn die Teststatistik kontinuierlich ist?
Mark999

3
Für kontinuierliche Verteilungen spielt es keine Rolle, aber diese Tatsache sollte Sie nicht dazu verleiten, die Unterscheidung zwischen und < zu vergessen, da es mathematisch wichtig ist. Dies ist auch bei Anwendungen von Bedeutung, da wir aufgrund der "Diskretion des realen Lebens" tatsächlich auf p-Werte von genau α stoßen können . <α
Horst Grünbusch

Antworten:


11

"As oder extremer" ist richtig.

Wenn die Verteilung so ist, dass die Wahrscheinlichkeit, die Teststatistik selbst zu erhalten, positiv ist, sollte diese Wahrscheinlichkeit (und alles, was ebenso extrem ist, wie der entsprechende Wert im anderen Schwanz) im p-Wert enthalten sein.

Bei einer kontinuierlichen Statistik ist diese Wahrscheinlichkeit einer exakten Gleichheit natürlich 0. Es macht keinen Unterschied, ob wir oder sagen .>


4

Der erste Punkt von ist, dass der Hypothesenraum innerhalb des gesamten Parameterraums topologisch geschlossen ist. Ohne Berücksichtigung der Zufälligkeit kann dies eine nützliche Konvention sein, wenn Sie eine Aussage über eine konvergierende Folge von Parametern haben, die zur Hypothese gehören, weil Sie dann wissen würden, dass die Grenze nicht plötzlich zur Alternative gehört.

Betrachtet man nun die Wahrscheinlichkeitsverteilungen, so sind sie (normalerweise) rechtskontinuierlich. Dies bedeutet, dass die Abbildung des geschlossenen Hypothesenraums auf das Intervall wieder geschlossen wird. Aus diesem Grund werden Konfidenzintervalle auch konventionell geschlossen.[0,1]

Dies verbessert die Mathematik. Stellen Sie sich vor, Sie würden ein Konfidenzintervall für den Standortparameter einer asymmetrischen Wahrscheinlichkeitsverteilung erstellen. Dort müsste man die Länge zum oberen Schwanz gegen die Länge zum unteren Schwanz tauschen. Die Wahrscheinlichkeit in beiden Schwänzen sollte sich zu summieren . Um das CI so informativ wie möglich zu gestalten, müssten Sie die Länge des CI so verkürzen, dass seine Abdeckungswahrscheinlichkeit immer noch 1 - α ist . Dies ist ein geschlossener Satz. Sie können dort eine optimale Lösung durch einen iterativen Algorithmus finden, z. B. Banachs Fixpunktsatz. Wenn es ein offener Satz wäre, können Sie dies nicht tun.α1α

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.