Da man Konfidenzintervalle für p-Werte berechnen kann und das Gegenteil der Intervallschätzung die Punktschätzung ist: Ist der p-Wert eine Punktschätzung?
Da man Konfidenzintervalle für p-Werte berechnen kann und das Gegenteil der Intervallschätzung die Punktschätzung ist: Ist der p-Wert eine Punktschätzung?
Antworten:
Punktschätzungen und Konfidenzintervalle beziehen sich auf Parameter, die die Verteilung beschreiben, z. B. Mittelwert oder Standardabweichung.
Im Gegensatz zu anderen Stichprobenstatistiken wie dem Stichprobenmittelwert und der Stichprobenstandardabweichung ist der p-Wert jedoch kein nützlicher Schätzer für einen interessanten Verteilungsparameter. Schauen Sie sich die Antwort von @whuber für technische Details an.
Der p-Wert für eine Teststatistik gibt die Wahrscheinlichkeit an, eine Abweichung vom erwarteten Wert der Teststatistik zu beobachten, die mindestens so groß ist wie die in der Stichprobe beobachtete, berechnet unter der Annahme, dass die Nullhypothese wahr ist. Wenn Sie die gesamte Verteilung haben, stimmt dies entweder mit der Nullhypothese überein oder nicht. Dies kann mit der Indikatorvariablen beschrieben werden (siehe auch die Antwort von @whuber).
Der p-Wert kann jedoch nicht als nützlicher Schätzer für die Indikatorvariable verwendet werden, da er nicht konsistent ist, da der p-Wert mit zunehmender Stichprobengröße nicht konvergiert, wenn die Nullhypothese wahr ist. Dies ist eine ziemlich komplizierte alternative Methode, um festzustellen, dass ein statistischer Test die Null entweder ablehnen oder nicht ablehnen kann, sie jedoch niemals bestätigt.
Ja, es könnte (und wurde) argumentiert, dass ein p-Wert eine Punktschätzung ist.
Um zu identifizieren, welche Eigenschaft einer Verteilung ein p-Wert abschätzen könnte, müssen wir annehmen, dass sie asymptotisch unverzerrt ist. Aber asymptotisch der mittlere p-Wert für die Nullhypothese ist ( im Idealfall, für einige Tests könnte es eine andere Zahl ungleich Null sein) und für jede andere Hypothese ist es 0 . Somit könnte der p-Wert als Schätzer der Hälfte der Indikatorfunktion für die Nullhypothese angesehen werden.
Zugegeben, es braucht etwas Kreativität, um einen p-Wert auf diese Weise zu sehen. Wir könnten es ein wenig besser machen, wenn wir den fraglichen Schätzer als die Entscheidung betrachten, die wir anhand des p-Werts treffen: Ist die zugrunde liegende Verteilung ein Mitglied der Nullhypothese oder der Alternativhypothese? Nennen wir diesen Satz von möglichen Entscheidungen . Jack Kiefer schreibt
Wir nehmen an, dass es ein Experiment gibt, dessen Ergebnis der Statistiker beobachten kann. Dieses Ergebnis wird durch eine Zufallsvariable oder einen Zufallsvektor ... beschrieben. Das Wahrscheinlichkeitsgesetz von X ist dem Statistiker unbekannt, aber es ist bekannt, dass die Verteilungsfunktion F von X ein Mitglied einer bestimmten Klasse ist von Verteilungsfunktionen ist. ...
Ein statistisches Problem wird als Problem der Punktschätzung bezeichnet, wenn die Sammlung möglicher Werte einer reellen oder vektoriellen Eigenschaft von F ist, von der abhängt in einerglatten Art und Weise.
In diesem Fall, weil ist "ziemlich glatt" überhaupt keine Einschränkung D diskret ist. Kiefers Terminologie spiegelt dies wider, indem sie statistische Verfahren mit diskreten Entscheidungsräumen als "Tests" anstelle von "Punktschätzern" bezeichnet.
Obwohl es interessant ist, die Grenzen (und Einschränkungen) solcher Definitionen zu untersuchen, wie uns diese Frage auffordert, sollten wir vielleicht nicht zu stark darauf bestehen, dass ein p-Wert ein Punktschätzer ist, da diese Unterscheidung zwischen Schätzern und Tests beides ist nützlich und konventionell.
In einem Kommentar zu dieser Frage machte Christian Robert auf einen Artikel von 1992 aufmerksam, in dem er und seine Mitautoren genau diesen Standpunkt einnahmen und die Zulässigkeit des p-Werts als Schätzer der Indikatorfunktion analysierten . Siehe den Link in den Referenzen unten. Das Papier beginnt,
Ansätze für das Testen von Hypothesen haben das Problem des Testens gewöhnlich eher als Entscheidungsfindung denn als Schätzung behandelt. Genauer gesagt führt ein formaler Hypothesentest zu einer Schlussfolgerung, ob eine Hypothese wahr ist, und liefert keine Evidenz, die mit dieser Schlussfolgerung in Verbindung gebracht werden kann. In dieser Arbeit betrachten wir das Testen von Hypothesen als ein Schätzproblem innerhalb eines entscheidungs-theoretischen Rahmens .
[Betonung hinzugefügt.]
Jiunn Tzon Hwang, George Casella, Christian Robert, Martin T. Wells und Roger H. Farrell, Schätzung der Genauigkeit beim Testen . Ann. Statist. Volume 20, Number 1 (1992), 490 & ndash; 509. Freier Zugang .
Jack Carl Kiefer, Einführung in die statistische Inferenz . Springer-Verlag, 1987.