Ich versuche zu beweisen, dass die beobachtete Informationsmatrix, die beim schwach konsistenten Maximum Likelihood Estimator (MLE) ausgewertet wird, ein schwach konsistenter Schätzer der erwarteten Informationsmatrix ist. Dies ist ein viel zitiertes Ergebnis, aber niemand gibt einen Hinweis oder einen Beweis (ich denke, die ersten 20 Seiten der Google-Ergebnisse und meine Statistik-Lehrbücher sind erschöpft)!
Unter Verwendung einer schwach konsistenten Folge von MLEs kann ich das schwache Gesetz der großen Zahlen (WLLN) und das kontinuierliche Mapping-Theorem verwenden, um das gewünschte Ergebnis zu erhalten. Ich glaube jedoch, dass das kontinuierliche Mapping-Theorem nicht verwendet werden kann. Stattdessen denke ich, dass das einheitliche Gesetz der großen Zahlen (ULLN) verwendet werden muss. Kennt jemand eine Referenz, die einen Beweis dafür hat? Ich habe einen Versuch an der ULLN, lasse ihn aber vorerst aus Gründen der Kürze weg.
Ich entschuldige mich für die Länge dieser Frage, aber die Notation muss eingeführt werden. Die Notation ist wie folgt (mein Beweis ist am Ende).
Angenommen, wir haben eine Stichprobe von Zufallsvariablen mit Dichten , wobei (hier ist nur eine allgemeine Zufallsvariable mit derselben Dichte) als eines der Mitglieder der Stichprobe). Der Vektor ist der Vektor aller wobei für alle . Der wahre Parameterwert der Dichten ist, und ist der schwach konsistente Maximum-Likelihood-Schätzer (MLE) von . Unter den Bedingungen der Regelmäßigkeit kann die Fisher-Informationsmatrix wie folgt geschrieben werden
Dabei ist die hessische Matrix. Das Beispieläquivalent ist
wobei . Die beobachtete Informationsmatrix ist;
,
(Einige Leute fordern, dass die Matrix bei \ hat {\ theta} ausgewertet wird , andere nicht). Die beobachtete Beispielinformationsmatrix ist;
wobei .
Ich kann eine Konvergenz der Wahrscheinlichkeit des Schätzers zu , aber nicht von zu . Hier ist mein Beweis soweit;
Jetzt ist Element von für jedes . Wenn die Stichprobe iid ist, dann konvergiert der Durchschnitt dieser Summanden nach dem schwachen Gesetz der großen Zahlen (WLLN) mit der Wahrscheinlichkeit zu . Also für alle und so . Leider können wir nicht einfach auf N - 1 J N ( θ N (Y)) P → I( θ 0 )unter Verwendung des kontinuierlichen Abbildungssatzes, da nicht die gleiche Funktion wie .I ( ⋅ )
Jede Hilfe hierzu wäre sehr dankbar.