1946 stellte der Geophysiker und Bayes-Statistiker Harold Jeffreys die heutige Kullback-Leibler-Divergenz vor und entdeckte, dass für zwei Distributionen, die "unendlich nah" sind (hoffen wir, dass die Math SE-Leute das nicht sehen ;-), wir schreiben können ihre Kullback-Leibler-Divergenz als quadratische Form, deren Koeffizienten durch die Elemente der Fisher-Informationsmatrix gegeben sind. Er interpretierte diese quadratische Form als Element der Länge einer Riemannschen Mannigfaltigkeit, wobei die Fisher-Information die Rolle der Riemannschen Metrik spielte. Aus dieser Geometrisierung des statistischen Modells hat er Jeffreys Prior als das Maß abgeleitet, das auf natürliche Weise durch die Riemannsche Metrik induziert wird, und dieses Maß kann als eine an sich gleichmäßige Verteilung auf der Mannigfaltigkeit interpretiert werden, obwohl es im Allgemeinen kein endliches Maß ist.
Um einen strengen Beweis zu erstellen, müssen Sie alle Regelmäßigkeitsbedingungen herausfinden und auf die Reihenfolge der Fehlerausdrücke in den Taylor-Erweiterungen achten. Hier ist eine kurze Skizze des Arguments.
Die symmetrisierte Kullback-Leibler-Divergenz zwischen zwei Dichten und ist definiert alsfG
D [ f, g] = ∫(f(x)−g(x))log(f(x)g(x))dx.
Wenn wir eine Familie von Dichten haben, die durch , dannθ = ( θ1, … , Θk)
D [ p (⋅∣ θ ) , p (⋅| & Thgr; + & Dgr; & thgr; ) ] = ∫( P ( x , | & thgr; ) - p ( x | & thgr; + & Dgr; & thgr; ) ) log(p(x∣θ)p(x∣θ+Δθ))dx,
Δ & thgr; = ( Δ & thgr; 1 , ... , Δ & thgr; k ) Δ p ( x | & thgr; ) = p ( x | & thgr; ) - p ( x | & thgr; + Δ & thgr; )
wobei . Einführen der Notation
einige einfache Algebra gibt
Wir verwenden die Taylor-Erweiterung für den natürlichen Logarithmus
Δθ=(Δθ1,…,Δθk)Δp(x∣θ)=p(x∣θ)−p(x∣θ+Δθ),
D[p(⋅∣θ),p(⋅∣θ+Δθ)]=∫Δp(x∣θ)p(x∣θ)log(1+Δp(x∣θ)p(x∣θ))p(x∣θ)dx.
log(1+Δp(x∣θ)p(x∣θ))≈Δp(x∣θ)p(x∣θ),
und daher
Aber
Daher ist
in dem
D[p(⋅∣θ),p(⋅∣ θ + Δθ)]≈∫( Δp(x∣θ)p (x∣θ))2p(x∣θ)dx.
Δ p ( x ≤ θ )p ( x ≤ θ )≈ 1p ( x ≤ θ )∑i = 1k∂p ( x ≤ θ )∂θich& Dgr; & thgr;ich= ∑i = 1k∂Logp ( x ≤ θ )∂θich& Dgr; & thgr;ich.
D [ p (⋅∣ θ ) , p (⋅∣θ+Δθ)]≈∑i,j=1kgijΔθiΔθj,
gij=∫∂logp(x∣θ)∂θi∂logp(x∣θ)∂θjp(x∣θ)dx.
Dies ist das Originalpapier:
Jeffreys, H. (1946). Eine invariante Form für die vorherige Wahrscheinlichkeit bei Schätzproblemen. Proc. Royal Soc. of London, Series A, 186, 453–461.