Zusammenhang zwischen Fisher-Metrik und der relativen Entropie

20

Kann jemand beweist die folgende Verbindung zwischen Fisher Informationen Metrik und der relativen Entropie (oder KL Divergenz) in eine rein mathematischen rigorosen Art und Weise?

D (p (\cdot, a + d a) ∥ p (\cdot, a)) = \frac{1}{2} g_{i, j} d a^{i} d a^{j} + (O (‖ d a ‖^{3})

$D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3)$ wobei ,

und

ist die Einstein-Summationskonvention.

a = (a^{1}, \dots, a^{n}), d a = (d a^{1}, \dots, d a^{n})

$a=(a^1,\dots, a^n), da=(da^1,\dots,da^n)$

g_{i, j} = \int \partial_{i} (\log p (x; a)) \partial_{j} (\log p (x; a)) p (x; a) d x

$g_{i,j}=\int \partial_i (\log p(x;a)) \partial_j(\log p(x;a))~ p(x;a)~dx$

g_{i, j} d a^{i} d a^{j} := \sum_{i, j} g_{i, j} d a^{i} d a^{j}

$g_{i,j} \, da^i \, da^j := \sum_{i,j}g_{i,j} \, da^i \, da^j$

Ich fand das oben in dem netten Blog von John Baez, wo Vasileios Anagnostopoulos in den Kommentaren darüber sagt.

mathematical-statistics kullback-leibler fisher-information

— Kumara
quelle

1

Sehr geehrte Kumara, zur Verdeutlichung wäre es hilfreich, Ihre Notation, insbesondere die Bedeutung von

, besser zu erläutern

g_{i, j}

$g_{i,j}$ . Ich denke auch, dass Ihrem Ausdruck ein konstanter Faktor von

1 / 2

$1/2$ vor dem ersten Term auf der rechten Seite der Anzeigegleichung fehlt . Man beachte, dass das, was Kullback selbst Divergenz nannte (unter Verwendung der Notation

J (\cdot, \cdot)

$J(\cdot,\cdot)$ ), die symmetrisierte Version der sogenannten KL-Divergenz ist, dh

J (p, q) = D (p ‖ q) + D (q ‖ p)

$J(p,q) = D(p \| q) + D(q \| p)$ . Die KL-Divergenz wurde in Kullbacks Schriften mit

I (\cdot, \cdot)

$I(\cdot,\cdot)$ . Dies erklärt auch den Faktor

1 / 2

$1/2$ . Prost.

— Kardinal

19

1946 stellte der Geophysiker und Bayes-Statistiker Harold Jeffreys die heutige Kullback-Leibler-Divergenz vor und entdeckte, dass für zwei Distributionen, die "unendlich nah" sind (hoffen wir, dass die Math SE-Leute das nicht sehen ;-), wir schreiben können ihre Kullback-Leibler-Divergenz als quadratische Form, deren Koeffizienten durch die Elemente der Fisher-Informationsmatrix gegeben sind. Er interpretierte diese quadratische Form als Element der Länge einer Riemannschen Mannigfaltigkeit, wobei die Fisher-Information die Rolle der Riemannschen Metrik spielte. Aus dieser Geometrisierung des statistischen Modells hat er Jeffreys Prior als das Maß abgeleitet, das auf natürliche Weise durch die Riemannsche Metrik induziert wird, und dieses Maß kann als eine an sich gleichmäßige Verteilung auf der Mannigfaltigkeit interpretiert werden, obwohl es im Allgemeinen kein endliches Maß ist.

Um einen strengen Beweis zu erstellen, müssen Sie alle Regelmäßigkeitsbedingungen herausfinden und auf die Reihenfolge der Fehlerausdrücke in den Taylor-Erweiterungen achten. Hier ist eine kurze Skizze des Arguments.

Die symmetrisierte Kullback-Leibler-Divergenz zwischen zwei Dichten und ist definiert als $f$ $g$

D [f, g] = \int (f (x) - G (x)) Log (\frac{f (x)}{G (x)}) d x .

$D[f,g] = \int (f(x) - g(x)) \log\left(\frac{f(x)}{g(x)} \right) dx \, .$

Wenn wir eine Familie von Dichten haben, die durch , dann $\theta=(\theta_1,\dots,\theta_k)$

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] = \int (p (x, ∣ θ) - p (x ∣ θ + Δ θ)) \log (\frac{p (x ∣ θ)}{p (x ∣ θ + Δ θ)}) d x,

$D[p(\,\cdot\,\mid\theta), p(\,\cdot\,\mid\theta + \Delta\theta)] = \int ( p(x,\mid\theta) - p(x\mid\theta + \Delta\theta)) \log\left( \frac{p(x\mid\theta)}{p(x\mid\theta + \Delta\theta)}\right) \,dx \, ,$

wobei . Einführen der Notation einige einfache Algebra gibt Wir verwenden die Taylor-Erweiterung für den natürlichen Logarithmus

Δ θ = (Δ θ_{1}, \dots, Δ θ_{k})

$\Delta\theta=(\Delta\theta_1,\dots,\Delta\theta_k)$

Δ p (x ∣ θ) = p (x ∣ θ) - p (x ∣ θ + Δ θ),

$\Delta p(x\mid\theta) = p(x\mid\theta) - p(x\mid\theta + \Delta\theta) \, ,$

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] = \int \frac{Δ p (x ∣ θ)}{p (x ∣ θ)} \log (1 + \frac{Δ p (x ∣ θ)}{p (x ∣ θ)}) p (x ∣ θ) d x .

$D[p(\;\cdot\,\mid\theta), p(\;\cdot\,\mid\theta + \Delta\theta)] = \int\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \log\left(1+\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right)p(x\mid\theta)\,dx \, .$

\log (1 + \frac{Δ p (x ∣ θ)}{p (x ∣ θ)}) \approx \frac{Δ p (x ∣ θ)}{p (x ∣ θ)},

$\log\left(1+\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right) \approx \frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \, ,$ und daher Aber Daher ist in dem

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] \approx \int {(\frac{Δ p (x ∣ θ)}{p (x ∣ θ)})}^{2} p (x ∣ θ) d x .

$D[p(\;\cdot\,\mid\theta), p(\;\cdot\,\mid\theta + \Delta\theta)] \approx \int\left(\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)}\right)^2p(x\mid\theta)\,dx \, .$

\frac{Δ p (x ∣ θ)}{p (x ∣ θ)} \approx \frac{1}{p (x ∣ θ)} \sum_{ich = 1}^{k} \frac{\partial p (x ∣ θ)}{\partial θ_{ich}} Δ θ_{ich} = \sum_{ich = 1}^{k} \frac{\partial Log p (x ∣ θ)}{\partial θ_{ich}} Δ θ_{ich} .

$\frac{\Delta p(x\mid\theta)}{p(x\mid\theta)} \approx \frac{1}{p(x\mid\theta)} \sum_{i=1}^k \frac{\partial p(x\mid\theta)}{\partial\theta_i} \, \Delta\theta_i = \sum_{i=1}^k \frac{\partial \log p(x\mid\theta)}{\partial\theta_i} \, \Delta\theta_i \, .$

D [p (\cdot ∣ θ), p (\cdot ∣ θ + Δ θ)] \approx \sum_{i, j = 1}^{k} g_{i j} Δ θ_{i} Δ θ_{j},

$D[p(\,\cdot\,\mid\theta), p(\,\cdot\,\mid\theta + \Delta\theta)] \approx \sum_{i,j=1}^k g_{ij} \,\Delta\theta_i \, \Delta\theta_j \, ,$

g_{i j} = \int \frac{\partial \log p (x ∣ θ)}{\partial θ_{i}} \frac{\partial \log p (x ∣ θ)}{\partial θ_{j}} p (x ∣ θ) d x .

$g_{ij} = \int \frac{\partial \log p(x\mid\theta)}{\partial\theta_i} \frac{\partial \log p(x\mid\theta)}{\partial\theta_j} p(x\mid\theta) \,dx \, .$

Dies ist das Originalpapier:

Jeffreys, H. (1946). Eine invariante Form für die vorherige Wahrscheinlichkeit bei Schätzproblemen. Proc. Royal Soc. of London, Series A, 186, 453–461.

— Zen
quelle

1

Vielen Dank für das nette Schreiben. Es wäre schön, wenn Sie helfen können dies auch.

— Kumara

Ja, hast du zu Recht gesagt. Ich muss aus dieser "Abstraktionsfalle" herauskommen.

— Kumara

@zen Sie verwenden die Taylor-Erweiterung des Logarithmus unter dem Integral. Warum ist das gültig?

— Sus20200

1

Es scheint von entscheidender Bedeutung, dass Sie mit der symmetrisierten KL-Divergenz im Gegensatz zur Standard-KL-Divergenz beginnen. Der Wikipedia-Artikel erwähnt die symmetrisierte Version nicht und ist daher möglicherweise falsch. en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence

— Surgical Commander

11

Beweis für übliche (unsymmetrische) KL-Divergenz

Zens Antwort verwendet die symmetrisierte KL-Divergenz, aber das Ergebnis gilt auch für die übliche Form, da es für unendlich enge Verteilungen symmetrisch wird.

Hier ist ein Beweis für diskrete Verteilungen, die mit einem Skalar parametrisiert wurden (weil ich faul bin), aber für kontinuierliche Verteilungen oder einen Vektor von Parametern leicht umgeschrieben werden können: $\theta$

D (p_{θ}, p_{θ + d θ}) = \sum p_{θ} Log p_{θ} - \sum p_{θ} Log p_{θ + d θ} .

$\begin{equation} D(p_\theta,p_{\theta+d\theta})=\sum p_\theta \log p_\theta - \sum p_\theta \log p_{\theta+d\theta}\ . \end{equation}$ Taylor-Erweiterung des letzten Terms: Unter der Annahme einiger Regelmäßigkeiten habe ich die beiden Ergebnisse verwendet:

= \underset{= 0}{\underset{⏟}{\sum p_{θ} Log p_{θ} - \sum p_{θ} Log p_{θ}}} - d θ \underset{= 0 †}{\underset{⏟}{\sum p_{θ} \frac{d}{d θ} Log p_{θ}}} - \frac{1}{2} {d θ}^{2} \underset{= - \sum p_{θ} (\frac{d}{d θ} Log p_{θ})^{2} ‡}{\underset{⏟}{\sum p_{θ} \frac{d^{2}}{d θ^{2}} Log p_{θ}}} + O ({d θ}^{3}) = \frac{1}{2} {d θ}^{2} \underset{Fisher Informationen}{\underset{⏟}{\sum p_{θ} (\frac{d}{d θ} Log p_{θ})^{2}}} + O ({d θ}^{3}) .

$\begin{equation} = \underbrace{\sum p_\theta \log p_\theta - \sum p_\theta \log p_\theta}_{=\ 0} - d\theta \underbrace{\sum p_\theta \frac{d}{d\theta}\log p_\theta}_{=\ 0 \ \dagger} - \frac{1}{2}{d\theta}^2 \underbrace{\sum p_\theta \frac{d^2}{d\theta^2}\log p_\theta}_{= -\sum p_\theta (\frac{d}{d\theta}\log p_\theta)^2 \ \ddagger} + \mathcal{O}({d\theta}^3) \\ = \frac{1}{2}{d\theta}^2 \underbrace{\sum p_\theta (\frac{d}{d\theta}\log p_\theta)^2}_{\textrm{Fisher information}} + \mathcal{O}({d\theta}^3). \end{equation}$

† : \sum p_{θ} \frac{d}{d θ} Log p_{θ} = \sum \frac{d}{d θ} p_{θ} = \frac{d}{d θ} \sum p_{θ} = 0,

$\begin{equation} \dagger: \sum p_\theta \frac{d}{d\theta}\log p_\theta = \sum \frac{d}{d\theta} p_\theta = \frac{d}{d\theta} \sum p_\theta =0, \end{equation}$

\begin{aligned} ‡ : \sum p_{θ} \frac{d^{2}}{d θ^{2}} Log p_{θ} & = \sum p_{θ} \frac{d}{d θ} (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ}) \\ = \sum p_{θ} [\frac{1}{p_{θ}} \frac{d^{2} p_{θ}}{d θ} - (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ})^{2}] \\ = \sum \frac{d^{2} p_{θ}}{d θ^{2}} - \sum p_{θ} (\frac{1}{p_{θ}} \frac{d p_{θ}}{d θ})^{2} \\ = \underset{= 0}{\underset{⏟}{\frac{d^{2}}{d θ^{2}} \sum p_{θ}}} - \sum p_{θ} (\frac{d}{d θ} Log p_{θ})^{2} . \end{aligned}

$\begin{align} \ddagger: \sum p_\theta \frac{d^2}{d\theta^2}\log p_\theta &= \sum p_\theta \frac{d}{d\theta}(\frac{1}{p_\theta}\frac{dp_\theta}{d\theta}) \\ &= \sum p_\theta \left[\frac{1}{p_\theta}\frac{d^2p_\theta}{d\theta}-(\frac{1}{p_\theta}\frac{dp_\theta}{d\theta})^2\right] \\ &= \sum \frac{d^2p_\theta}{d\theta^2} - \sum p_\theta (\frac{1}{p_\theta} \frac{dp_\theta}{d\theta})^2 \\ &= \underbrace{\frac{d^2}{d\theta^2} \sum p_\theta}_{=\ 0} - \sum {p_\theta} (\frac{d}{d\theta}\log p_\theta)^2. \end{align}$

— Abhranil Das
quelle

4

Eine ähnliche Beziehung (für einen eindimensionalen Parameter) finden Sie in Gleichung (3) der folgenden Abhandlung

D. Guo (2009), Relative Entropie- und Score-Funktion: Neue Informations-Schätzungs-Beziehungen durch willkürliche additive Störung , in Proc. Internationales IEEE-Symposium für Informationstheorie , 814–818. ( stabiler Link ).

Die Autoren verweisen auf

S. Kullback, Informationstheorie und Statistik . New York: Dover, 1968.

für einen Beweis für dieses Ergebnis.

— Primo Carnera
quelle

1

Eine multivariate Version von Gleichung (3) dieses Papiers ist im zitierten Kullback-Text auf den Seiten 27-28 belegt. Die Konstante scheint in der Frage des OP verschwunden zu sein. :)

1 / 2

$1/2$

— Kardinal