Was sind die "wünschenswerten" statistischen Eigenschaften des Likelihood-Ratio-Tests?

Ich lese einen Artikel, dessen Methode vollständig auf dem Likelihood-Ratio-Test basiert. Der Autor sagt, dass der LR-Test gegen einseitige Alternativen UMP ist. Er fährt fort, indem er das behauptet

"... selbst wenn nicht gezeigt werden kann, dass es [der LR-Test] einheitlich am leistungsstärksten ist, hat der LR-Test oft wünschenswerte statistische Eigenschaften."

Ich frage mich, welche statistischen Eigenschaften hier gemeint sind. Angesichts der Tatsache, dass sich der Autor auf diejenigen bezieht, die nebenbei vorkommen, gehe ich davon aus, dass sie unter Statistikern allgemein bekannt sind.

Die einzige wünschenswerte Eigenschaft, die ich bisher gefunden habe, ist die asymptotische Chi-Quadrat-Verteilung von (unter bestimmten Regelmäßigkeitsbedingungen), wobei das LR-Verhältnis ist. $-2 \log \lambda$ $\lambda$

Ich wäre auch dankbar für einen Verweis auf einen klassischen Text, in dem man über die gewünschten Eigenschaften lesen kann.

— Sergey Zykov
quelle

Sie können einen Blick auf (Kap. 15 und 16) von van Der Waart werfen: "Asymptotic Statistics".

— kjetil b halvorsen

Es könnte gut sein zu lesen Was folgt, wenn wir die Nullhypothese nicht ablehnen? vor der Erklärung unten.

Wünschenswerte Eigenschaften: Leistung

Beim Testen von Hypothesen besteht das Ziel darin, 'statistische Beweise' für . Dadurch können wir Fehler vom Typ I machen, dh wir lehnen (und entscheiden, dass es Beweise für ), während wahr war (dh ist falsch). Ein Fehler vom Typ I ist also das Finden falscher Beweise für . $H_1$ $H_0$ $H_1$ $H_0$ $H_1$ $H_1$

Ein Fehler vom Typ II wird gemacht, wenn nicht zurückgewiesen werden kann, während es in der Realität falsch ist, dh wir akzeptieren und wir vermissen die Beweise für . $H_0$ $H_0$ $H_1$

Die Wahrscheinlichkeit eines Fehlers vom Typ I wird mit , dem gewählten Signifikanzniveau, bezeichnet. Die Wahrscheinlichkeit eines Fehlers vom Typ II wird als und wird als Potenz des Tests bezeichnet. Es ist die Wahrscheinlichkeit, Beweise für wenn wahr ist. $\alpha$ $\beta$ $1-\beta$ $H_1$ $H_1$

Beim Testen statistischer Hypothesen legt der Wissenschaftler einen oberen Schwellenwert für die Wahrscheinlichkeit eines Fehlers vom Typ I fest und versucht unter dieser Bedingung, einen Test mit maximaler Leistung zu finden, wenn . $\alpha$

Die wünschenswerten Eigenschaften von Likelihood-Ratio-Tests haben mit Leistung zu tun

In einem Hypothesentest gegen die Nullhypothese und die Alternativhypothese als "einfach" bezeichnet, dh der Parameter ist auf einen Wert festgelegt, genauso gut unter wie unter (genauer; die Verteilungen sind vollständig bestimmt). $H_0: \theta=\theta_0$ $H_1: \theta = \theta_1$ $H_0$ $H_1$

Das Neyman-Pearson-Lemma besagt, dass für Hypothesentests mit einfachen Hypothesen und für eine gegebene Fehlerwahrscheinlichkeit vom Typ I ein Likelihood-Ratio-Test die höchste Leistung hat. Offensichtlich ist eine hohe Leistung bei eine wünschenswerte Eigenschaft: Die Leistung ist ein Maß dafür, wie einfach es ist, Beweise für zu finden . $\alpha$ $H_1$

Wenn die Hypothese zusammengesetzt ist; wie z. B. gegen dann kann das Neyman-Pearson-Lemma nicht angewendet werden, da es 'Mehrfachwerte in ' gibt. Wenn man einen Test so finden kann, dass er für jeden Wert "unter " am stärksten ist , dann wird dieser Test als "einheitlich am stärksten" (UMP) bezeichnet (dh für jeden Wert unter am stärksten ). $H_0: \theta = \theta_1$ $H_1: \theta > \theta_1$ $H_1$ $H_1$ $H_1$

Es gibt einen Satz von Karlin und Rubin, der die notwendigen Bedingungen für einen Likelihood-Ratio-Test liefert, um einheitlich am leistungsfähigsten zu sein. Diese Bedingungen sind für viele einseitige (univariate) Tests erfüllt.

Die wünschenswerte Eigenschaft des Likelihood-Ratio-Tests liegt also in der Tatsache, dass er in mehreren Fällen die höchste Leistung aufweist (wenn auch nicht in allen Fällen).

In den meisten Fällen die Existenz eines UMP Test nicht gezeigt und in vielen Fällen werden können (vor allem die multivariate) geht hervor, dass ein UMP Test nicht gezeigt werden , nicht vorhanden sind . In einigen dieser Fälle werden Likelihood-Ratio-Tests jedoch aufgrund ihrer wünschenswerten Eigenschaften (im obigen Kontext) angewendet, weil sie relativ einfach anzuwenden sind und manchmal, weil keine anderen Tests definiert werden können.

Der einseitige Test, der auf der Standardnormalverteilung basiert, ist beispielsweise UMP.

Intuition hinter dem Likelihood-Ratio-Test:

Wenn ich gegen testen möchte, brauchen wir eine Beobachtung die aus einer Probe abgeleitet wurde. Beachten Sie, dass dies ein einzelner Wert ist. $H_0: \theta=\theta_0$ $H_1: \theta = \theta_1$ $o$

Wir wissen, dass entweder wahr ist oder wahr ist, also kann man die Wahrscheinlichkeit von berechnen, wenn wahr ist (nennen wir es ) und auch die Wahrscheinlichkeit, beobachten, wenn wahr ist (nennen wir es ). $H_0$ $H_1$ $o$ $H_0$ $L_0$ $o$ $H_1$ $L_1$

$L_1 > L_0$ $H_1$ $\frac{L_1}{L_0} > 1$ $H_1$ $H_0$

$\frac{L_1}{L_0}$ $1.001$ $\frac{L_1}{L_0}$

Ich habe dieses PDF im Internet gefunden.

— Gemeinschaft
quelle

Ich denke, dies übersieht die Frage des OP: Das Zitat besagt, dass das LRT , auch wenn nicht gezeigt werden kann, dass es UMP ist, noch andere attraktive Merkmale aufweist. Was sind also die attraktiven Funktionen, die nicht UMP sind?

— Cliff AB

@Cliff AB: Ich denke, das steht am Ende des ersten Abschnitts und der zweite Abschnitt erklärt intuitiv, warum es sinnvoll ist, LRT zu verwenden. Beachten Sie, dass es in den meisten Fällen kein UMP gibt und wenn es keinen "besten Test" oder keine Alternative gibt, ist es nicht unangemessen, etwas zu nehmen, das "Sinn macht", denke ich? Wenn Sie jedoch zusätzliche Elemente haben, können Sie diese in Ihrer eigenen Antwort veröffentlichen. Das ist die Idee hinter SE, denke ich.

Vielleicht lese ich nur das Originalzitat etwas anders: Ich lese es als "LRT hat neben der Leistung noch andere attraktive Eigenschaften".

— Cliff AB

@CliffAB Ich stimme Ihrem Kommentar zu. Anscheinend hat der Autor des Artikels, auf den ich in meiner Frage verwiesen habe, gemeint, dass LRT aus irgendeinem Grund gut ist, auch wenn es kein UMP-Test ist, und ich hoffe, dass dieser Grund nicht nur die einfache Implementierung oder ist das Fehlen anderer Alternativen. Ich vermute (hoffe), dass das LRT einige gute asymptotische Eigenschaften hat (z. B. ist es konsistent, dh seine Leistung für jeden

H 1

$H1$ geht zu

1

$1$ wenn wir die Anzahl der Beobachtungen erhöhen).

— Sergey Zykov

Unterschätzen Sie nicht die einfache Implementierung!

— Cliff AB