Wir versuchen, die anderen Antworten zu ergänzen ... Welche Informationen sind Fisher-Informationen? Beginnen Sie mit der Log-Wahrscheinlichkeitsfunktion
als Funktion von für , dem Parameterraum. Unter der Annahme einiger Regelmäßigkeitsbedingungen, die wir hier nicht diskutieren, haben wir
(Wir werden Ableitungen in Bezug auf den Parameter wie hier als Punkte schreiben). Die Varianz ist die Fisher-Information
θ θ ∈ & THgr; E ∂
ℓ ( θ ) = logf( x ; θ )
θθ ∈ ΘI(θ)=Eθ( ˙ l (θ))2=-Eθ ¨ l (θ)θ ˙ l (θ)=0 ˙ l (θ)E∂∂θℓ ( θ ) = Eθℓ˙( θ ) = 0ich( θ ) = Eθ( ℓ˙( θ ) )2= - Eθℓ¨( θ )
Die letzte Formel zeigt, dass es sich um die (negative) Krümmung der Loglikelihood-Funktion handelt. Oft findet man den Maximum Likelihood Estimator (mle) von durch Lösen der Likelihood-Gleichung wenn die Fisher-Information als Varianz der Punktzahl ist groß, dann ist die Lösung für diese Gleichung sehr datenempfindlich, was die Hoffnung auf eine hohe Präzision der mle weckt. Dies wird zumindest asymptotisch bestätigt, wobei die asymptotische Varianz des mle das Gegenteil der Fisher-Information ist.
θℓ˙( θ ) = 0ℓ˙( θ )
Wie können wir das interpretieren? ist die Wahrscheinlichkeit , dass Informationen über den Parameter aus der Probe. Dies kann wirklich nur in einem relativen Sinne interpretiert werden, wie wenn wir es verwenden, um die Plausibilitäten zweier unterschiedlicher möglicher Parameterwerte über den Wahrscheinlichkeitsverhältnis-Test . Die Änderungsrate des LogLikelihood ist die Score - Funktion sagt uns , wie schnell sich die Wahrscheinlichkeit ändert, und deren Varianz , wie sehr diese von Probe zu Probe variiert, bei einer gegebenen paramiter Wert, sagen wir . Die Gleichung (was wirklich überraschend ist!)
θ l ( θ 0 ) - l ( θ 1 ) ˙ l ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ l ( θ ) θ 0 ˙ l ( θ ) | θ = θ 0 θ θ 0ℓ ( θ )θℓ ( θ0) - ℓ ( θ1)ℓ˙( θ )ich( θ )θ0
ich( θ ) = - Eθℓ¨( θ )
sagt uns, dass es eine Beziehung (Gleichheit) zwischen der Variabilität in der Information (Wahrscheinlichkeit) für einen gegebenen Parameterwert, ; , und der Krümmung der Wahrscheinlichkeitsfunktion für diesen Parameterwert gibt. Dies ist eine überraschende Beziehung zwischen der Variabilität (Varianz) dieser Statistik und der erwarteten Änderung der Stimmung, wenn wir den Parameter in einem Intervall variieren (für die gleichen Daten). Das ist wirklich seltsam, überraschend und kraftvoll!
θ0ℓ˙( θ ) ∣θ = θ0θθ0
Also, was ist die Wahrscheinlichkeitsfunktion? Wir denken in der Regel des statistischen Modells als eine Familie von Wahrscheinlichkeitsverteilungen für Daten , indiziert durch den Parameter ein Element in dem Parameterraum . Wir denken, dass dieses Modell wahr ist, wenn es einen Wert so dass die Daten tatsächlich die Wahrscheinlichkeitsverteilung . Wir erhalten also ein statistisches Modell, indem wir die wahre Wahrscheinlichkeitsverteilung für die Datenerzeugungx & thgr; θ 0 ∈ Θ x f ( x ; & thgr ; 0 ) f ( x ; & thgr ; 0 ){ f( x ; θ ) , θ ∈ Θ }xθΘθ0& egr ; & THgr;xf( x ; θ0)f( x ; θ0)in einer Familie von Wahrscheinlichkeitsverteilungen. Es ist jedoch klar, dass eine solche Einbettung auf viele verschiedene Arten erfolgen kann, und jede solche Einbettung wird ein "wahres" Modell sein, und sie wird unterschiedliche Wahrscheinlichkeitsfunktionen geben. Und ohne eine solche Einbettung gibt es keine Wahrscheinlichkeitsfunktion. Es scheint, dass wir wirklich Hilfe brauchen, einige Grundsätze, wie man eine Einbettung mit Bedacht wählt!
Also, was bedeutet das? Dies bedeutet, dass die Wahl der Wahrscheinlichkeitsfunktion uns sagt, wie wir erwarten würden, dass sich die Daten ändern, wenn sich die Wahrheit ein wenig ändert. Dies kann jedoch durch die Daten nicht wirklich verifiziert werden, da die Daten nur Informationen über die wahre Modellfunktion die die Daten tatsächlich erzeugt hat, und nicht über alle anderen Elemente im ausgewählten Modell. Auf diese Weise sehen wir, dass die Wahl der Wahrscheinlichkeitsfunktion der Wahl eines Prioren in der Bayes'schen Analyse ähnlich ist und Nicht-Daten-Informationen in die Analyse einspeist. Betrachten wir dies in einem einfachen (etwas künstlichen) Beispiel und betrachten wir den Effekt der Einbettung von in ein Modell auf verschiedene Arten.f ( x ; & thgr ; 0 )f( x ; θ0)f( x ; θ0)
Nehmen wir an, uiv als . Das ist also die wahre, datenerzeugende Verteilung. Betten wir dies nun auf zwei verschiedene Arten in ein Modell ein, Modell A und Modell B.
Sie können überprüfen, ob dies für übereinstimmt . N ( μ = 10 , σ 2 = 1 ) A : X 1 , … , X n iid N ( μ , σ 2 = 1 ) , μ ∈ RX1, … , XnN( μ = 10 , σ2= 1 )μ = 10
A : X1, … , Xn iid N ( μ , σ2= 1 ) , μ ≤ RB : X1, … , Xn iid N ( μ , μ / 10 ) , μ > 0
μ = 10
Die Loglikelihood-Funktionen werden zu
ℓEIN( Μ ) = - n2Log( 2 π) - 12∑ich( xich- μ )2ℓB( Μ ) = - n2Log( 2 π) - n2Log( μ / 10 ) - 102∑ich( xich- μ )2μ
Die Bewertungsfunktionen: (Loglikelihood-Ableitungen):
und die Krümmungen
Die Fisher-Informationen hängen also wirklich von der Einbettung ab. Nun berechnen wir die Fisher-Information mit dem wahren Wert ,
daher sind die Fisher-Informationen zum Parameter in Modell B etwas größer.
ℓ˙EIN( μ ) = n ( x¯- μ )ℓ˙B( Μ ) = - n2 μ- 102∑ich( xichμ)2- 15 n
ℓ¨EIN( Μ ) = - nℓ¨B( μ ) = n2 μ2+ 102∑ich2 x2ichμ3
μ = 10ichEIN( μ = 10 ) = n ,ichB( μ = 10 ) = n ⋅ ( 1200+ 20202000) > n
Dies zeigt in gewisser Weise, dass die Fisher-Informationen Aufschluss darüber geben, wie schnell sich die Informationen aus den Daten über den Parameter geändert hätten, wenn sich der maßgebliche Parameter in der durch die Einbettung in eine Modellfamilie postulierten Weise geändert hätte . Die Erklärung für höhere Informationen in Modell B ist, dass unsere Modellfamilie B postuliert, dass, wenn die Erwartung zugenommen hätte, auch die Varianz zugenommen hätte . Damit enthält die Stichprobenvarianz unter Modell B auch Informationen über , was unter Modell A nicht der Fall ist.μ
Dieses Beispiel zeigt auch, dass wir wirklich eine Theorie brauchen, um Modellfamilien konstruieren zu können.