Ok, dank der hervorragenden @ Mur1lo-Antwort habe ich jetzt ein besseres Verständnis und möchte meinen eigenen Versuch machen, dieses abstrakte Konzept so konkret wie möglich zu machen.
Angenommen, wir haben eine Stichprobe von 5 Münzergebnissen. Wir nehmen an, dass sie aus einer Population mit Bernoulli-Verteilung mit dem wahren Parameter entnommen wurdenπ0.
Wenn wir uns eine bestimmte Münze mit Ergebnis ansehen x3= 1können wir die logarithmische Wahrscheinlichkeit berechnen, mit der dieser Patient aus einer Bernoulli-Verteilung mit allen Arten von Parameterwerten, zπ= 0,2 oder π= 0,9und so weiter. Die Log-Wahrscheinlichkeit ist also eine Funktion, die die Wahrscheinlichkeit von abschätztx3 für jeden möglichen Wert von π.
L L ( π|x3) =x3l n ( π) + ( 1 -x3) l n ( 1 - π)
Was einfach bedeutet, dass wenn x3= 1 die Wahrscheinlichkeit dafür war π und wenn es 0 ist, ist die Wahrscheinlichkeit dafür 1 - π.
Wenn wir die Unabhängigkeit zwischen den Münzzügen annehmen, haben wir eine 'Durchschnitts'-Funktion, die die logarithmische Wahrscheinlichkeit der gesamten Stichprobe von n = 5 Münzzügen darstellt.
L L ( π|X.) = ∑xichl n (π) + ( n - ∑ (xich) ) l n ( 1 - π)
Wir wollen das Maximum von finden L L ( π|X.)- die mle =πm l e.
Die Score-Funktion u ( π)ist ein Vektor der Ableitungen für jeden Parameter der Log-Wahrscheinlichkeit. Zum Glück ist es in unserem Fall ein einfacher Skalar, da es nur einen Parameter gibt. Unter bestimmten Umständen hilft es uns bei der Sucheπm l e, da in diesem Punkt die Score-Funktion wäre u (πm l e) = 0. Wir können die Beobachtungswertfunktion für eine einzelne Beobachtung berechnen (Münzziehung):
u ( π|x3) =x3π- -1 -x31 - π
und die Stichproben-Score-Funktion von n = 5 Patienten:
u ( π| X.) =∑xichπ- -n - ∑xich1 - π
Wenn wir diese letzte Funktion auf 0 setzen, erhalten wir πm l e.
ABER das spezifische 5-Draws-Sample hat nichts mit der Erwartung der Score-Funktion zu tun! Die Erwartung ist der Wert der Beobachtungswertfunktion für jeden möglichen Wert von x, multipliziert mit der Wahrscheinlichkeit dieses Wertes, der die Dichtefunktion ist! In unserem Fall kann x nur 2 Werte annehmen: 0 und 1. Und die Dichtefunktion ist, wie wir angenommen haben, ein Bernoulli mit Parameterπ0::
E.( u ( π|xich) ) =∑x(xπ- -1 - x1 - π)πx0( 1 -π0)1 - x=π0π- -1 -π01 - π
und es ist klar, dass es Null wird, wenn es am wahren Parameter ausgewertet wird π0. Die intuitive Interpretation lautet: Für jeden Wert vonπWas ist die mittlere Änderungsrate der Wahrscheinlichkeit?
Die Informationsmatrix ist die Varianz der Wahrscheinlichkeit - wie empfindlich wird unsere Lösung für unterschiedliche Daten sein? (siehe diese Antwort ).
ich( π|xich) = v a r ( u ( π|xich) ) = v a r (xichπ- -1 -xich1 - π) = v a r (xich- ππ( 1 - π)) =v a r (xich)π2( 1 - π)2=π0( 1 -π0)π2( 1 - π)2
und wenn am wahren Parameter ausgewertet π0 es vereinfacht sich zu:
ich(π0|xich) =1π0( 1 -π0)
( Weitere Informationen finden Sie in den Washington Edu-Notizen .)
Erstaunlicherweise gibt es eine andere Möglichkeit zu messen, wie empfindlich die Wahrscheinlichkeit in einem bestimmten Fall sein würde π! das ist die Erwartung der Krümmung = Hessisch = zweite Ableitung. Je steiler unsere Wahrscheinlichkeit ist, desto genauer werden wir sein. Details finden Sie im Blog von Mark Reid