RV Foutz und RC Srivastava haben das Thema eingehend untersucht. Ihr 1977 Papier „Die Leistung der Wahrscheinlichkeitsverhältnis - Prüfung , wenn das Modell nicht richtig ist“ enthält eine Erklärung des verteilungs Ergebnisses bei Fehlspezifikation neben einer sehr kurzen Skizze des Beweises, während ihres 1978 Papiers „Die Häufigkeitsverteilung des Wahrscheinlichkeitsverhältnisses , wenn das Modell ist falsch " enthält den Proof - letzterer ist jedoch in altmodischem Schreibmaschinenstil geschrieben (beide Papiere verwenden jedoch die gleiche Schreibweise, sodass Sie sie beim Lesen kombinieren können). Außerdem beziehen sie sich für einige Beweisschritte auf einen Aufsatz von KP Roy "Ein Hinweis zur asymptotischen Verteilung des Wahrscheinlichkeitsverhältnisses" aus dem Jahr 1957, der nicht online verfügbar zu sein scheint, selbst wenn er nicht vollständig ist.
Im Falle einer verteilten Fehlspezifikation folgt die LR-Statistik , wenn die MLE immer noch konsistent und asymptotisch normal ist (was nicht immer der Fall ist), asymptotisch einer linearen Kombination unabhängiger Chi-Quadrate (jeweils mit einem Freiheitsgrad).
- 2 lnλ →d∑i = 1rcichχ2ich
wo . Man kann die "Ähnlichkeit" sehen: Anstelle eines Chi-Quadrats mit Freiheitsgraden haben wir Chi-Quadrate mit jeweils einem Freiheitsgrad. Aber die "Analogie" hört hier auf, weil eine lineare Kombination von Chi-Quadraten keine geschlossene Formdichte hat. Jedes skalierte Chi-Quadrat ist ein Gamma, aber mit einem anderen Parameter, der zu einem anderen Skalierungsparameter für das Gamma führt, und die Summe solcher Gammas ist nicht geschlossen, obwohl ihre Werte berechnet werden können.h - m h - m c ir = h - mh - mh - mcich
Für die Konstanten haben wir und sie sind die Eigenwerte einer Matrix ... welche Matrix? Nun, unter Verwendung der Autoren-Notation, setze als das Hessische der log-Wahrscheinlichkeit und als das äußere Produkt des Gradienten der log-Wahrscheinlichkeit (erwartungsgemäß). Also ist die asymptotische Varianz-Kovarianz-Matrix des MLE.c 1 ≥ c 2 ≥ . . . c r ≥ 0 ≤ C V = ≤ - 1 C ( ≤ ' ) - 1cichc1≥ c2≥ . . . cr≥ 0ΛCV= Λ- 1C( Λ′)- 1
Dann setzt die zu oberen diagonalen Block von . r × r VMr × rV
Schreiben Sie auch in BlockformΛ
Λ = [ Λr × rΛ2Λ′2Λ3]
und setze ( ist das Negativ des Schur-Komplements von ). W ≤W= - Λr × r+ Λ′2Λ- 13Λ2WΛ
Dann sind die die Eigenwerte der Matrix die mit den wahren Werten der Parameter bewertet werden. M WcichMW
ADDENDUM In
Reaktion auf die gültige Bemerkung des OP in den Kommentaren (manchmal werden Fragen zu einem Sprungbrett für die Weitergabe eines allgemeineren Ergebnisses und können dabei selbst vernachlässigt werden) geht Wilks 'Beweis folgendermaßen vor: Wilks beginnt mit der Verbindung Normalverteilung des MLE und leitet den funktionalen Ausdruck des Likelihood Ratio ab. Bis einschließlich seiner Gl. kann sich der Beweis weiterentwickeln, selbst wenn wir annehmen, dass wir eine verteilte Fehlspezifikation haben: Wie das OP feststellt, unterscheiden sich die Begriffe der Varianz-Kovarianz-Matrix im Szenario der Fehlspezifikation, aber Wilks nimmt nur Derivate und identifiziert sie asymptotisch vernachlässigbare Begriffe. Und so kommt er zu Gl. wo wir sehen, dass die Wahrscheinlichkeitsverhältnisstatistik,[ 9 ] h - m h - m[ 9 ][ 9 ]Wenn die Spezifikation korrekt ist, handelt es sich nur um die Summe der normalen Zufallsvariablen im Quadrat. Sie werden also als ein Chi-Quadrat mit Freiheitsgraden verteilt: (generische Notation)h - mh - m
- 2 lnλ = ∑i = 1h - m( n--√θ^ich- θichσich)2→dχ2h - m
Aber wenn wir eine Fehlspezifikation haben, dann sind die Terme, die verwendet werden, um das zentrierte und vergrößerte MLE zu skalieren, nicht länger die Terme, die die Varianzen jedes Elements gleich Eins machen. und so transformieren Sie jeden Term in ein normales rv und die Summe in ein Chi-Quadrat.
Und sie sind es nicht, weil diese Terme die erwarteten Werte der zweiten Ableitungen der log-Wahrscheinlichkeit beinhalten ... aber der erwartete Wert kann nur in Bezug auf die wahre Verteilung genommen werden, da die MLE eine Funktion der Daten und der ist Daten folgen der wahren Verteilung, während die zweiten Ableitungen der log-Wahrscheinlichkeit auf der Grundlage der falschen Dichteannahme berechnet werden. n--√( θ^- θ )
Unter falscher Angabe haben wir also etwas wie
und das Beste, was wir tun können, ist, es zu manipulieren
- 2 lnλ = ∑i = 1h - m( n--√θ^ich- θicheinich)2
- 2 lnλ = ∑i = 1h - mσ2ichein2ich( n--√θ^ich- θichσich)2= ∑i = 1h - mσ2ichein2ichχ21
Dies ist eine Summe skalierter Chi-Quadrat-RVs, die nicht länger als ein Chi-Quadrat-RV mit Freiheitsgraden verteilt sind. Der Verweis des OP ist in der Tat eine sehr klare Darstellung dieses allgemeineren Falls, der Wilks 'Ergebnis als Sonderfall enthält.h - m