Warum funktioniert Wilks 'Beweis von 1938 nicht für falsch spezifizierte Modelle?

In der berühmten Arbeit von 1938 (" Die Verteilung des Wahrscheinlichkeitsverhältnisses bei großen Stichproben zum Testen von zusammengesetzten Hypothesen ", Annals of Mathematical Statistics, 9: 60-62) leitete Samuel Wilks die asymptotische Verteilung des (log Likelihood Ratio) ab. für verschachtelte Hypothesen unter der Annahme, dass die größere Hypothese korrekt angegeben ist. Die Grenzverteilung ist (Chi-Quadrat) mit Freiheitsgraden, wobei die Anzahl der Parameter in der größeren Hypothese und $2 \times LLR$ $\chi^2$ $h-m$ $h$ $m$ ist die Anzahl der freien Parameter in der verschachtelten Hypothese. Es ist jedoch bekannt, dass dieses Ergebnis nicht zutrifft, wenn die Hypothesen falsch spezifiziert sind (dh wenn die größere Hypothese nicht die wahre Verteilung für die Stichprobendaten ist).

Kann mir jemand erklären warum? Es scheint mir, dass Wilks 'Beweis mit geringfügigen Änderungen noch funktionieren sollte. Es beruht auf der asymptotischen Normalität der Maximum-Likelihood-Schätzung (MLE), die bei falsch spezifizierten Modellen immer noch gilt. Der einzige Unterschied ist die Kovarianzmatrix der limitierenden multivariaten Normalen: Für korrekt spezifizierte Modelle können wir die Kovarianzmatrix mit der inversen Fisher-Informationsmatrix approximieren, bei falscher Spezifikation können wir die Sandwich-Schätzung der Kovarianzmatrix verwenden ( ). Letzteres reduziert sich bei korrekter Modellangabe auf die Inverse der Fisher - Informationsmatrix (da $J^{-1}$ $J^{-1} K J^{-1}$ $J = K$ ). AFAICT, Wilks Beweis ist es egal, woher die Schätzung der Kovarianzmatrix stammt, solange wir eine invertierbare asymptotische Kovarianzmatrix der multivariaten Normalen für die MLEs haben ( in der Wilks-Veröffentlichung). $c^{-1}$

— Ratsalad
quelle

Wenn das größere Modell wahr ist, aber das Untermodell falsch, ist die asymptotische Verteilung nicht mehr (in linearen Modellen mit Gaußschen Fehlern erhalten wir zum Beispiel Dinge wie exakte nicht-zentrale F-Verteilungen, so dass die asymptotische Verteilung so etwas wie nc sein sollte - Ich vermute). Warum sollten wir also damit rechnen, dass es wenn sowohl das größere als auch das kleinere Modell falsch sind? Was genau ist hier die Nullhypothese?

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$

— Kerl

In der korrekt angegebenen Nullhypothese sind beide Modelle "wahr", aber für das verschachtelte Modell sind Parameter auf die wahren Werte festgelegt. In der falsch spezifizierten Nullhypothese sind beide Modelle "falsch", aber für das verschachtelte Modell sind Parameter auf die Pseudowerte festgelegt. ("Pseudowert" ist der asymptotische Wert des Parameters, der den Kullback-Liebler-Abstand zwischen dem falsch spezifizierten Modell und dem wahren Modell minimiert.) Ihr Beispiel für das nicht-zentrale F ist also nicht relevant, da dies die Verteilung ist, wenn die Nullhypothese hier falsch ist.

m

$m$

m

$m$

— Ratsalad

Entschuldigung, ich hätte sagen sollen, dass für die verschachtelte Hypothese Parameter auf die wahren Werte festgelegt sind.

h - m

$h-m$

— Ratsalad

Ich verstehe, dass ein falsch angegebenes Nullmodell in vielerlei Hinsicht falsch angegeben werden kann. Zum Beispiel: falsche Verteilung von Residuen, Daten haben Heteroskedastizität, Effekte sind nicht additiv usw. Ich stimme jedoch zu, dass, wenn mindestens einer der "getesteten" Parameter auf einen falschen Wert festgelegt ist (zum Beispiel der Pseudowahrheitswert) Dies ist ein Beispiel für ein falsch angegebenes Nullmodell.

h - m

$h - m$

— rcorty

Antworten:

RV Foutz und RC Srivastava haben das Thema eingehend untersucht. Ihr 1977 Papier „Die Leistung der Wahrscheinlichkeitsverhältnis - Prüfung , wenn das Modell nicht richtig ist“ enthält eine Erklärung des verteilungs Ergebnisses bei Fehlspezifikation neben einer sehr kurzen Skizze des Beweises, während ihres 1978 Papiers „Die Häufigkeitsverteilung des Wahrscheinlichkeitsverhältnisses , wenn das Modell ist falsch " enthält den Proof - letzterer ist jedoch in altmodischem Schreibmaschinenstil geschrieben (beide Papiere verwenden jedoch die gleiche Schreibweise, sodass Sie sie beim Lesen kombinieren können). Außerdem beziehen sie sich für einige Beweisschritte auf einen Aufsatz von KP Roy "Ein Hinweis zur asymptotischen Verteilung des Wahrscheinlichkeitsverhältnisses" aus dem Jahr 1957, der nicht online verfügbar zu sein scheint, selbst wenn er nicht vollständig ist.

Im Falle einer verteilten Fehlspezifikation folgt die LR-Statistik , wenn die MLE immer noch konsistent und asymptotisch normal ist (was nicht immer der Fall ist), asymptotisch einer linearen Kombination unabhängiger Chi-Quadrate (jeweils mit einem Freiheitsgrad).

- 2 \ln λ \overset{d}{\to} \sum_{ich = 1}^{r} c_{ich} χ_{ich}^{2}

$-2\ln \lambda \xrightarrow{d} \sum_{i=1}^{r}c_i\mathcal \chi^2_i$

wo . Man kann die "Ähnlichkeit" sehen: Anstelle eines Chi-Quadrats mit Freiheitsgraden haben wir Chi-Quadrate mit jeweils einem Freiheitsgrad. Aber die "Analogie" hört hier auf, weil eine lineare Kombination von Chi-Quadraten keine geschlossene Formdichte hat. Jedes skalierte Chi-Quadrat ist ein Gamma, aber mit einem anderen Parameter, der zu einem anderen Skalierungsparameter für das Gamma führt, und die Summe solcher Gammas ist nicht geschlossen, obwohl ihre Werte berechnet werden können. $r=h-m$ $h-m$ $h-m$ $c_i$

Für die Konstanten haben wir und sie sind die Eigenwerte einer Matrix ... welche Matrix? Nun, unter Verwendung der Autoren-Notation, setze als das Hessische der log-Wahrscheinlichkeit und als das äußere Produkt des Gradienten der log-Wahrscheinlichkeit (erwartungsgemäß). Also ist die asymptotische Varianz-Kovarianz-Matrix des MLE. $c_i$ $c_1 \geq c_2\geq ...c_r \geq0$ $\Lambda$ $C$ $V = \Lambda^{-1} C (\Lambda')^{-1}$

Dann setzt die zu oberen diagonalen Block von . $M$ $r \times r$ $V$

Schreiben Sie auch in Blockform $\Lambda$

Λ = [\begin{matrix} Λ_{r \times r} & Λ_{2}^{'} \\ Λ_{2} & Λ_{3} \end{matrix}]

$\Lambda =\left [\begin {matrix} \Lambda_{r\times r} & \Lambda_2'\\ \Lambda_2 & \Lambda_3\\ \end{matrix}\right]$

und setze ( ist das Negativ des Schur-Komplements von ). $W = -\Lambda_{r\times r}+\Lambda_2'\Lambda_3^{-1}\Lambda_2$ $W$ $\Lambda$

Dann sind die die Eigenwerte der Matrix die mit den wahren Werten der Parameter bewertet werden. $c_i$ $MW$

ADDENDUM In
Reaktion auf die gültige Bemerkung des OP in den Kommentaren (manchmal werden Fragen zu einem Sprungbrett für die Weitergabe eines allgemeineren Ergebnisses und können dabei selbst vernachlässigt werden) geht Wilks 'Beweis folgendermaßen vor: Wilks beginnt mit der Verbindung Normalverteilung des MLE und leitet den funktionalen Ausdruck des Likelihood Ratio ab. Bis einschließlich seiner Gl. kann sich der Beweis weiterentwickeln, selbst wenn wir annehmen, dass wir eine verteilte Fehlspezifikation haben: Wie das OP feststellt, unterscheiden sich die Begriffe der Varianz-Kovarianz-Matrix im Szenario der Fehlspezifikation, aber Wilks nimmt nur Derivate und identifiziert sie asymptotisch vernachlässigbare Begriffe. Und so kommt er zu Gl. wo wir sehen, dass die Wahrscheinlichkeitsverhältnisstatistik, $[9]$ $[9]$ Wenn die Spezifikation korrekt ist, handelt es sich nur um die Summe der normalen Zufallsvariablen im Quadrat. Sie werden also als ein Chi-Quadrat mit Freiheitsgraden verteilt: (generische Notation) $h-m$ $h-m$

- 2 \ln λ = \sum_{ich = 1}^{h - m} {(\sqrt{n} \frac{{\hat{θ}}_{ich} - θ_{ich}}{σ_{ich}})}^{2} \overset{d}{\to} χ_{h - m}^{2}

$-2\ln \lambda = \sum_{i=1}^{h-m}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{\sigma_i}\right)^2 \xrightarrow{d} \mathcal \chi^2_{h-m}$

Aber wenn wir eine Fehlspezifikation haben, dann sind die Terme, die verwendet werden, um das zentrierte und vergrößerte MLE zu skalieren, nicht länger die Terme, die die Varianzen jedes Elements gleich Eins machen. und so transformieren Sie jeden Term in ein normales rv und die Summe in ein Chi-Quadrat. Und sie sind es nicht, weil diese Terme die erwarteten Werte der zweiten Ableitungen der log-Wahrscheinlichkeit beinhalten ... aber der erwartete Wert kann nur in Bezug auf die wahre Verteilung genommen werden, da die MLE eine Funktion der Daten und der ist Daten folgen der wahren Verteilung, während die zweiten Ableitungen der log-Wahrscheinlichkeit auf der Grundlage der falschen Dichteannahme berechnet werden. $\sqrt n(\hat \theta -\theta)$

Unter falscher Angabe haben wir also etwas wie und das Beste, was wir tun können, ist, es zu manipulieren

- 2 \ln λ = \sum_{ich = 1}^{h - m} {(\sqrt{n} \frac{{\hat{θ}}_{ich} - θ_{ich}}{{ein}_{ich}})}^{2}

$-2\ln \lambda = \sum_{i=1}^{h-m}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{a_i}\right)^2$

- 2 \ln λ = \sum_{ich = 1}^{h - m} \frac{σ_{ich}^{2}}{{ein}_{ich}^{2}} {(\sqrt{n} \frac{{\hat{θ}}_{ich} - θ_{ich}}{σ_{ich}})}^{2} = \sum_{ich = 1}^{h - m} \frac{σ_{ich}^{2}}{{ein}_{ich}^{2}} χ_{1}^{2}

$-2\ln \lambda = \sum_{i=1}^{h-m}\frac {\sigma_i^2}{a_i^2}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{\sigma_i}\right)^2 = \sum_{i=1}^{h-m}\frac {\sigma_i^2}{a_i^2}\mathcal \chi^2_1$

Dies ist eine Summe skalierter Chi-Quadrat-RVs, die nicht länger als ein Chi-Quadrat-RV mit Freiheitsgraden verteilt sind. Der Verweis des OP ist in der Tat eine sehr klare Darstellung dieses allgemeineren Falls, der Wilks 'Ergebnis als Sonderfall enthält. $h-m$

— Alecos Papadopoulos
quelle

Dies ist also nur eine Wiederholung des Standardergebnisses, wenn das Modell falsch angegeben ist. Dieses Ergebnis wurde viele Male abgeleitet und erneut abgeleitet. Die klarste und aufschlussreichste Ableitung, die ich je gesehen habe, stammt aus Kent 1982 " Robuste Eigenschaften von Likelihood Ratio Tests " (Biometrika 69:19). Sie haben meine Frage jedoch nicht beantwortet. Meine Frage bezog sich speziell auf Wilks 1938-Beweis und warum er fehlschlägt.

— Ratsalad

Wilks 'Beweis von 1938 funktioniert nicht, weil Wilks in seinem Beweis als asymptotische Kovarianzmatrix verwendete. ist das Inverse des Hessischen der negativen Log-Wahrscheinlichkeit und nicht der Sandwich-Schätzer . Wilks bezeichnet das te Element von als in seinem Beweis. Unter der Annahme, dass Wilks (1938) davon aus, dass gilt, was die Fisher Information Matrix-Gleichheit ist. Wenn das Wahrscheinlichkeitsmodell richtig spezifiziert ist, ist $J^{-1}$ $J^{-1}$ $J^{-1} K J^{-1}$ $ij$ $J$ $c_{ij}$ $J^{-1}KJ^{-1} = J^{-1}$ $K=J$ $K=J$ . Eine Interpretation der Annahme von Wilks ist daher, dass er die stärkere Annahme annimmt, dass das Wahrscheinlichkeitsmodell korrekt spezifiziert ist.

— RMG
quelle