Beobachtete Informationsmatrix ist ein konsistenter Schätzer der erwarteten Informationsmatrix?


16

Ich versuche zu beweisen, dass die beobachtete Informationsmatrix, die beim schwach konsistenten Maximum Likelihood Estimator (MLE) ausgewertet wird, ein schwach konsistenter Schätzer der erwarteten Informationsmatrix ist. Dies ist ein viel zitiertes Ergebnis, aber niemand gibt einen Hinweis oder einen Beweis (ich denke, die ersten 20 Seiten der Google-Ergebnisse und meine Statistik-Lehrbücher sind erschöpft)!

Unter Verwendung einer schwach konsistenten Folge von MLEs kann ich das schwache Gesetz der großen Zahlen (WLLN) und das kontinuierliche Mapping-Theorem verwenden, um das gewünschte Ergebnis zu erhalten. Ich glaube jedoch, dass das kontinuierliche Mapping-Theorem nicht verwendet werden kann. Stattdessen denke ich, dass das einheitliche Gesetz der großen Zahlen (ULLN) verwendet werden muss. Kennt jemand eine Referenz, die einen Beweis dafür hat? Ich habe einen Versuch an der ULLN, lasse ihn aber vorerst aus Gründen der Kürze weg.

Ich entschuldige mich für die Länge dieser Frage, aber die Notation muss eingeführt werden. Die Notation ist wie folgt (mein Beweis ist am Ende).

Angenommen, wir haben eine Stichprobe von Zufallsvariablen {Y1,,YN} mit Dichten f(Y~|θ) , wobei θΘRk (hier ist Y~ nur eine allgemeine Zufallsvariable mit derselben Dichte) als eines der Mitglieder der Stichprobe). Der Vektor ist der Vektor aller wobei für alle . Der wahre Parameterwert der Dichten istY=(Y1,,YN)TYiRni=1,,Nθ0, und ist der schwach konsistente Maximum-Likelihood-Schätzer (MLE) von . Unter den Bedingungen der Regelmäßigkeit kann die Fisher-Informationsmatrix wie folgt geschrieben werdenθ^N(Y)θ0

I(θ)=Eθ[Hθ(logf(Y~|θ)]

Dabei ist die hessische Matrix. Das Beispieläquivalent istHθ

IN(θ)=i=1NIyi(θ),

wobei . Die beobachtete Informationsmatrix ist;Iyi=Eθ[Hθ(logf(Yi|θ)]

J(θ)=Hθ(logf(y|θ) ,

(Einige Leute fordern, dass die Matrix bei \ hat {\ theta} ausgewertet wird θ^, andere nicht). Die beobachtete Beispielinformationsmatrix ist;

JN(θ)=i=1NJyi(θ)

wobei .Jyi(θ)=Hθ(logf(yi|θ)

Ich kann eine Konvergenz der Wahrscheinlichkeit des Schätzers zu , aber nicht von zu . Hier ist mein Beweis soweit;N1JN(θ)ich(θ)N1JN(θ^N(Y))I(θ0)

Jetzt ist Element von für jedes . Wenn die Stichprobe iid ist, dann konvergiert der Durchschnitt dieser Summanden nach dem schwachen Gesetz der großen Zahlen (WLLN) mit der Wahrscheinlichkeit zu . Also für alle und so . Leider können wir nicht einfach auf(JN(θ))rs=i=1N(Hθ(logf(Yi|θ))rs(r,s)JN(θ)r,s=1,,kEθ[(Hθ(logf(Y1|θ))rs]=(IY1(θ))rs=(I(θ))rsN1(JN(θ))rsP(I(θ))rsr,s=1,,k N - 1 J N ( θ N (Y)) P I( θ 0 )N1JN(θ)PI(θ)N1JN(θ^N(Y))PI(θ0)unter Verwendung des kontinuierlichen Abbildungssatzes, da nicht die gleiche Funktion wie .I ( )N1JN()I()

Jede Hilfe hierzu wäre sehr dankbar.



Beantwortet meine Antwort unten Ihre Frage?
Dapz

1
@Dapz Bitte nehmen Sie meine aufrichtige Entschuldigung entgegen, dass Sie bis jetzt nicht geantwortet haben - ich habe den Fehler gemacht, anzunehmen, dass niemand antworten würde. Vielen Dank für Ihre Antwort unten - ich habe es positiv bewertet, da ich sehe, dass es am nützlichsten ist, aber ich muss ein wenig darüber nachdenken. Vielen Dank für Ihre Zeit, und ich werde bald auf Ihren Beitrag unten antworten.
14.

Antworten:


7

Ein möglicher Ansatz ist es, direkt ein einheitliches Gesetz mit einer großen Anzahl von Zahlen aufzustellen.

Hier ist eine andere.

Wir wollen zeigen, dass .JN(θMLE)NPI(θ)

(Wie Sie sagten, haben wir durch die WLLN das . Aber das hilft uns nicht direkt.)JN(θ)NPI(θ)

Eine mögliche Strategie besteht darin, zu zeigen, dass

|I(θ)JN(θ)N|P0.

und

|JN(θMLE)NJN(θ)N|P0

Wenn beide Ergebnisse wahr sind, können wir sie kombinieren, um | zu erhalten I ( θ ) - J N ( θ M L E )

|I(θ)JN(θMLE)N|P0,

Das ist genau das, was wir zeigen wollen.

Die erste Gleichung folgt aus dem schwachen Gesetz der großen Zahlen.

Die zweite ergibt sich fast aus dem stetigen Mapping-Theorem, aber leider ist unsere Funktion dass wir die CMT auf Änderungen mit N anwenden wollen : unser g ist wirklich g N ( θ ) : = J N ( θ )g()Ng . Daher können wir das CMT nicht verwenden.gN(θ):=JN(θ)N

(Bemerkung: Wenn Sie den Beweis der CMT in Wikipedia untersuchen, bemerken Sie, dass die Menge sie in ihrem Beweis für uns definieren, jetzt auch von n abhängt . Wir brauchen im Wesentlichen eine Art Gleichkontinuität bei θ über unsere Funktionen g N ( θ ) .)BδnθgN(θ)

Zum Glück, wenn Sie annehmen, dass die Familie ist bei θ stochastisch gleich stetig , dann folgt unmittelbar für θ M L E P M θ , | g n ( & thgr; M L E ) - g n ( & thgr; ) | P 0.G={gN|N=1,2,}θθMLEPθ

|gn(θMLE)gn(θ)|P0.

(Siehe hier: http://www.cs.berkeley.edu/~jordan/courses/210B-spring07/lectures/stat210b_lecture_12.pdf für eine Definition der stochastischen Gleichkontinuität bei und einen Beweis der obigen Tatsache.)θ

Unter der Annahme, dass bei θ SE ist , gilt das gewünschte Ergebnis, und die empirische Fisher-Information konvergiert mit der Fisher-Information der Grundgesamtheit.Gθ

Die entscheidende Frage ist natürlich, welche Art von Bedingungen müssen Sie auferlegen , um SE zu erhalten? Eine Möglichkeit besteht darin, eine Lipshitz-Bedingung für die gesamte Funktionsklasse G zu erstellen (siehe hier: http://econ.duke.edu/uploads/media_items/uniform-convergence-and-stochastic-equicontinuity.original) .pdf ).GG


1

Die obige Antwort unter Verwendung der stochastischen Gleichzeitigkeit funktioniert sehr gut, aber hier beantworte ich meine eigene Frage, indem ich ein einheitliches Gesetz mit großen Zahlen verwende, um zu zeigen, dass die beobachtete Informationsmatrix ein stark konsistenter Schätzer der Informationsmatrix ist, dh wenn wir eine stark konsistente Folge von Schätzern einfügen . Ich hoffe es stimmt in allen Details.N1JN(θ^N(Y))a.s.I(θ0)

Wir verwenden ein Indexsatz zu sein, und lassen Sie uns annehmen vorübergehend die Notation J ( ~ Y , θ ) : = J ( θ ) , um über die Abhängigkeit des zu expliziten J ( θ ) auf dem Zufallsvektor ~ Y . Wir werden auch elementweise mit ( J ( ˜ Y , θ ) ) r arbeitenIN={1,2,...,N}J(Y~,θ):=J(θ)J(θ)Y~ und( J N (θ) ) , r s = Σ N i = 1 (J( Y i ,θ) ) r n ,r,s=1,. . . ,k, für diese Diskussion. Die Funktion(J(,θ) ) r s ist auf der Menge R n × Θ reellwertig(J(Y~,θ))rs(JN(θ))rs=i=1N(J(Yi,θ))rsr,s=1,...,k(J(,θ))rs , und wir nehmen an, dass es Lebesgue ist, das für jedesθ Θ messbar ist. Ein einheitliches (starkes) Gesetz großer Zahlen definiert eine Reihe von Bedingungen, unter denenRn×ΘθΘ

supθΘ|N1(JN(θ))rsEθ[(J(Y1,θ))rs]|=supθΘ|N1i=1N(J(Yi,θ))rs(I(θ))rs|a.s0(1)

Die Bedingungen, die in Reihenfolge erfüllt werden müssen , dass (1) hält , ist (a) ist ein kompakter Satz; (b) ( J ( ~ Y , θ ) ) , r s ist eine stetige Funktion auf & THgr; mit einer Wahrscheinlichkeit von 1; (c) für jedes θ Θ ( J ( ˜ Y , θ ) ) wird r s von einer Funktion h ( ˜ Y ) dominiert , dh | ( J ( ˜ Y ,Θ(J(Y~,θ))rsΘθΘ (J(Y~,θ))rsh(Y~) ; und (d) für jedes θ Θ E θ [ h ( ˜ Y ) ] < ; Diese Bedingungen stammen von Jennrich (1969, Satz 2).|(J(Y~,θ))rs|<h(Y~)θΘ Eθ[h(Y~)]<

Jetzt für jeden , i I N und θ 'S & THgr; , offensichtlich die folgende Ungleichung giltyiRniINθSΘ

|N1i=1N(J(yi,θ))rs(I(θ))rs|supθS|N1i=1N(J(yi,θ))rs(I(θ))rs|.(2)

{θ^N(Y)}θ0ΘN1=BδN1(θ0)KΘRkδN10N1Kθ^N(Y)ΘN1 for N sufficiently large enough we have P[limN{θ^N(Y)ΘN1}]=1 for sufficiently large N. Together with (2) this implies

P[limN{|N1i=1N(J(Yi,θ^N(Y)))rs(I(θ^N(Y)))rs|supθΘN1|N1i=1N(J(Yi,θ))rs(I(θ))rs|}]=1.(3)

Now ΘN1Θ implies conditions (a)-(d) of Jennrich (1969, Theorem 2) apply to ΘN1. Thus (1) and (3) imply

P[limN{|N1i=1N(J(Yi,θ^N(Y)))rs(I(θ^N(Y)))rs|=0}]=1.(4)

Since (I(θ^N(Y)))rsa.s.I(θ0) then (4) implies that N1(JN(θ^N(Y)))rsa.s.(I(θ0))rs. Note that (3) holds however small ΘN1 is, and so the result in (4) is independent of the choice of N1 other than N1 must be chosen such that ΘN1Θ. This result holds for all r,s=1,...,k, and so in terms of matrices we have N1JN(θ^N(Y))a.s.I(θ0).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.