Zwei Definitionen des p-Wertes: Wie kann man ihre Äquivalenz beweisen?

Ich lese in Larry Wassermans Buch All of Statistics und derzeit über p-Werte (Seite 187). Lassen Sie mich zunächst einige Definitionen einführen (ich zitiere):

Definition 1 Die Leistungsfunktion eines Tests mit Verwerfungsbereich $R$ ist definiert durch
$β (θ) = P_{θ} (X \in R)$ $\beta(\theta)=P_{\theta}(X\in R)$ Die Größe eines Tests definiert werden soll $α = sup_{θ \in Θ_{0}} β (θ)$ $\alpha = \sup_{\theta\in\Theta_0}\beta(\theta)$ Ein Test ist soll das Niveau $\alpha$ wenn seine Größe kleiner oder gleich $\alpha$ .

Dies besagt im Grunde, dass $\alpha$ , die Größe die "größte" Wahrscheinlichkeit eines Fehlers vom Typ I ist. Der $p$ Wert wird dann definiert über (ich zitiere)

Definition 2 Angenommen, wir haben für jedes $\alpha\in(0,1)$ einen Test der Größe $\alpha$ mit dem Ablehnungsbereich $R_\alpha$ . Dann ist
$p -value = inf {α : T (X^{n}) \in R_{α}}$ $p\text{-value}=\inf\{\alpha:T(X^n)\in R_\alpha\}$ wobei $X^n=(X_1,\dots,X_n)$ .

Für mich bedeutet dies: Bei einem bestimmten $\alpha$ gibt es einen Test- und Zurückweisungsbereich $R_\alpha$ so dass $\alpha=\sup_{\theta\in\Theta_{0}(\alpha)}P_\theta(T(X^n)\in R_\alpha)$ . Für den $p$ Wert nehme ich dann einfach den kleinsten von all diesen $\alpha$ .

Frage 1 Wenn dies der Fall wäre, könnte ich eindeutig $\alpha = \epsilon$ für beliebig kleine wählen $\epsilon$ . Was ist meine falsche Interpretation von Definition 2, dh was bedeutet das genau?

Nun setzt Wasserman fort und gibt einen Satz an, der eine "äquivalente" Definition des $p$ Wertes enthält, mit der ich vertraut bin (ich zitiere):

Satz Angenommen, der Test der Größe $\alpha$ hat die Form
$reject H_{0} ⟺ T (X^{n}) \geq c_{α}$ $\text{reject } H_0 \iff T(X^n)\ge c_\alpha$ Dann $p -value = sup_{θ \in Θ_{0}} P_{θ} (T (X^{n}) \geq T (x^{n}))$ $p\text{-value} = \sup_{\theta\in\Theta_0}P_{\theta}(T(X^n)\ge T(x^n))$ , wobei $x^n$ ist der beobachtete Wert von $X^n$ .

Hier ist meine zweite Frage:

Frage 2 Wie kann ich diesen Satz tatsächlich beweisen? Vielleicht liegt es an meinem Missverständnis der Definition des $p$ Werts, aber ich kann es nicht herausfinden.

hypothesis-testing mathematical-statistics p-value

— Mathematik
quelle

Es ist positiv seltsam, dass Wasserman Macht als "

" definiert, da das Symbol

fast universell für die Fehlerrate vom Typ II verwendet wird (dh Macht = 1-

für fast jeden anderen Autor, der Macht diskutiert). Es fällt mir schwer, mir eine Wahl der Notation vorzustellen, die zu schlimmerer Verwirrung führen kann, als wenn ich absichtlich darauf aus bin, sie zu verursachen.

β

$\beta$

β

$\beta$

β

$\beta$

— Glen_b -State Monica

Ich stimme zu, dass das seltsam ist, Glen - aber Casella und Berger machen dasselbe und ihr Text ist meiner Meinung nach der Goldstandard für die statistische Theorie.

— Matt Brems

Antworten:

Wir haben einige multivariate Daten , die aus einer Verteilung mit einem unbekannten Parameter . Beachten Sie, dass Stichprobenergebnisse sind. $x$ $\mathcal{D}$ $\theta$ $x$

Wir wollen eine Hypothese über einen unbekannten Parameter testen , die Werte von unter der Nullhypothese liegen in der Menge . $\theta$ $\theta$ $\theta_0$

Im Raum des können wir einen Zurückweisungsbereich , und die Leistung dieses Bereichs wird dann definiert als . So dass die Leistung wird berechnet für einen bestimmten Wert von als die Wahrscheinlichkeit , dass die Probe Ergebnis in der Verwerfungsbereich ist , wenn der Wert von ist . Offensichtlich hängt die Leistung von der Region $X$ $R$ $R$ $\mathcal{P}_\bar{\theta}^R=P_\bar{\theta}(x \in R)$ $\bar{\theta}$ $\theta$ $x$ $R$ $\theta$ $\bar{\theta}$ $R$ und auf dem gewählten . $\bar{\theta}$

Definition 1 definiert die Größe des Bereichs $R$ als das Supremum aller Werte von für in , also nur für Werte von unter . Offensichtlich ist dies abhängig von der Region, so . $\mathcal{P}_\bar{\theta}^R$ $\bar{\theta}$ $\theta_0$ $\bar{\theta}$ $H_0$ $\alpha^R=sup_{\bar{\theta} \in \theta_0} \mathcal{P}_\bar{\theta}^R$

Als abhängt haben wir einen anderen Wert , wenn die Region ändert, und dies ist die Grundlage , um die p-Wert für die Definition: Änderung der Region, aber in einer Weise , dass die Probe noch beobachteten Wert in der Region gehört, für jede dieser Region, berechne das wie oben definiert und nimm das Infimum: . Der p-Wert ist also die kleinste Größe aller Regionen, die enthalten . $\alpha^R$ $R$ $\alpha_R$ $pv(x)=inf_{R |_{x \in R}} \alpha^R$ $x$

Der Satz ist dann nur eine 'Übersetzung' davon, nämlich der Fall, in dem die Regionen unter Verwendung einer Statistik definiert werden und für einen Wert eine Region als . Wenn Sie diese Art von Region in der obigen Argumentation verwenden, folgt der Satz. $R$ $T$ $c$ $R$ $R=\{ x | T(x) \ge c \}$ $R$

BEARBEITEN wegen Kommentaren:

@ user8: für den Satz; Wenn Sie Ablehnungsbereiche wie im Satz definieren, ist ein Zurückweisungsbereich der Größe eine Menge, die wie folgt aussieht: für einige . $\alpha$ $R^\alpha= \{X | T(X) \ge c_\alpha \}$ $c_\alpha$

Um den p-Wert eines beobachteten Wertes , dh , müssen Sie den kleinsten Bereich , dh den größten Wert von so dass enthält immer noch , letzteres (die Region enthält ) entspricht (aufgrund der Art und Weise, wie die Regionen definiert sind) der Aussage, dass , so dass Sie das größte wie z dass $x$ $pv(x)$ $R$ $c$ $\{X | T(X) \ge c \}$ $x$ $x$ $c \ge T(x)$ $c$ $\{X | T(X) \ge c \& c \ge T(x) \}$

Offensichtlich ist der größte , so dass sollte sein und dann der Satz über wird $c$ $c \ge T(x)$ $c = T(x)$ $\{ X | T(X) \ge c = T(x)\}=\{ X | T(X) \ge T(x)\}$

Vielen Dank für Ihre Antwort. Zur Frage nach der Validierung des Satzes: Fehlt nicht irgendwie ein

über

inf

$\inf$

α

$\alpha$

— Mathe

@ user8: Ich habe am Ende meiner Antwort einen Absatz hinzugefügt. Sehen Sie jetzt den Punkt mit dem Infimum?

In Definition 2 ist der Wert einer Teststatistik die größte Untergrenze von allen so dass die Hypothese für einen Test der Größe verworfen wird . Denken Sie daran, dass je kleiner wir machen, weniger Toleranz für Fehler vom Typ I wir zulassen, sodass auch der Zurückweisungsbereich abnimmt. (Sehr) informell gesehen ist der Wert das kleinste wir wählen können, sodass wir für die beobachteten Daten immer noch ablehnen können. Wir können nicht willkürlich ein kleineres wählen, weil irgendwann $p$ $\alpha$ $\alpha$ $\alpha$ $R_\alpha$ $p$ $\alpha$ $H_0$ $\alpha$ $R_\alpha$ wird so klein sein, dass es das beobachtete Ereignis ausschließt (dh nicht enthält).

In Anbetracht des Vorstehenden lade ich Sie ein, den Satz zu überdenken.

— Heropup
quelle

Ich bin immer noch ein bisschen verwirrt. Ist also zunächst in Definition

die Statistik

für alle

? Ich bin mit Ihrer Aussage nicht einverstanden: "... irgendwann wird

so klein sein, dass es das beobachtete Ereignis ausschließt (dh nicht enthält)." Völlig in Ordnung, wenn

so klein ist, dass es die beobachtete Probe nicht enthält, lehnen wir

. Was ist das Problem damit? Vielen Dank für Ihre Hilfe / Geduld

2

$2$

T

$T$

α

$\alpha$

R_{α}

$R_\alpha$

R_{α}

$R_\alpha$

H_{0}

$H_0$

— Mathe

Yes. The test statistic

T

$T$ is a predetermined fixed function of the sample, where "fixed" in this sense means that the form of the function does not change for any

α

$\alpha$ . The value it takes on may (and should) depend on the sample. Your statement "we don't reject

H_{0}

$H_0$ " reveals why your disagreement is incorrect: by definition,

R_{α}

$R_\alpha$ comprises the set of all values for which the test statistic leads to rejection of the null. That's why it's labeled

R

$R$ --for "R"ejection. I will post an update to my answer to explain in more detail.

— heropup

Many thanks for your quick answer and in advance for your updated version. What I meant was the following: We reject

H_{0}

$H_0$ if

T (x_{n}) \in R_{α}

$T(x_n)\in R_\alpha$ , where

x_{n}

$x_n$ is the observed sample. Say I'm very extreme and choose

R_{α}

$R_\alpha$ very small, so that for the given sample

T (x_{n}) \notin R_{α}

$T(x_n)\notin R_\alpha$ which just means we DONT reject

H_{0}

$H_0$ . So a small

R_{α}

$R_\alpha$ isnt apriori a bad thing. Clearly, at one point it is so small, that's very very very unlikely to observe a sample belonging to

R_{α}

$R_\alpha$ . Again, thanks for your patience / help. really appreciated!

— math

The given definition of p-value explicitly requires the test statistic for the sample to be in the rejection region. You are not free to change that part of the definition of p-value.

— Glen_b -Reinstate Monica

@Glen_b Thanks for the comment. Indeed, my previous comment does violate the definition. Thanks for pointing it out.

— math