Kullback-Leibler-Divergenz OHNE Informationstheorie

Nach langem Durchforsten von Cross Validated fühle ich mich immer noch nicht näher daran, die KL-Divergenz außerhalb des Bereichs der Informationstheorie zu verstehen. Es ist ziemlich seltsam, wenn jemand mit einem mathematischen Hintergrund die Erklärung der Informationstheorie viel leichter versteht.

Um mein Verständnis vor dem Hintergrund der Informationstheorie zu skizzieren: Wenn wir eine Zufallsvariable mit einer endlichen Anzahl von Ergebnissen haben, gibt es eine optimale Kodierung, die es uns ermöglicht, das Ergebnis mit durchschnittlich der kürzesten Nachricht an einen anderen zu kommunizieren (ich finde dies am einfachsten) Bild in Bit ausgedrückt). Die erwartete Länge der Nachricht, die zur Übermittlung des Ergebnisses benötigt wird, ist gegeben durch wenn die optimale Codierung verwendet wird. Wenn Sie eine suboptimale Codierung verwenden, gibt die KL-Divergenz im Durchschnitt an, wie lange unsere Nachricht dauern würde.

- \sum_{α} p_{α} \log_{2} (p_{α})

$-\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha})$

Diese Erklärung gefällt mir, weil sie sich ganz intuitiv mit der Asymmetrie der KL-Divergenz befasst. Wenn wir zwei verschiedene Systeme haben, dh zwei geladene Münzen, die unterschiedlich geladen sind, haben sie unterschiedliche optimale Kodierungen. Ich bin nicht instinktiv der Meinung, dass die Codierung des zweiten Systems für das erste "genauso schlecht" ist wie die Codierung des ersten Systems für das zweite. Ohne den Gedankenprozess durchzugehen, wie ich mich selbst überzeugt habe, bin ich jetzt ziemlich glücklich, dass gibt Ihnen diese "zusätzliche erwartete Nachrichtenlänge", wenn Sie die Kodierung von für .

\sum_{α} p_{α} (\log_{2} q_{α} - \log_{2} p_{α})

$\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})$

q

$q$

p

$p$

Die meisten Definitionen der KL-Divergenz, einschließlich Wikipedia, geben dann die Aussage ab (diskret, damit sie mit der informationstheoretischen Interpretation verglichen werden kann, die diskret weitaus besser funktioniert, da Bits diskret sind), dass wir zwei diskrete Wahrscheinlichkeiten haben Verteilungen, dann bietet KL einige Metrik "wie unterschiedlich sie sind". Ich habe noch keine einzige Erklärung dafür gefunden, wie diese beiden Konzepte überhaupt zusammenhängen. Ich scheine mich in seinem Buch über Inferenz zu erinnern, dass Dave Mackay darauf hinweist, dass Datenkomprimierung und Inferenz im Grunde genommen dasselbe sind, und ich vermute, dass meine Frage wirklich damit zusammenhängt.

Unabhängig davon, ob dies der Fall ist oder nicht, handelt es sich bei meiner Frage um Inferenzprobleme. (Dinge diskret halten), wenn wir zwei radioaktive Proben haben und wir wissen, dass eine von ihnen ein bestimmtes Material mit bekannter Radioaktivität ist (dies ist zweifelhafte Physik, aber tun wir so, als würde das Universum so funktionieren), und wir kennen daher die "wahre" Verteilung von radioaktiven Klicks sollten wir Poisson sein mit bekanntem messen sollten , ist es fair , eine empirische Verteilung für beiden Proben aufzubauen und ihre KL Divergenzen zu der bekannten Verteilung vergleichen und sagen , dass die untere wahrscheinlicher ist , dass das Material zu sein? $\lambda$

Wenn ich mich von der zweifelhaften Physik verabschiede und weiß, dass zwei Samples von derselben Verteilung stammen, aber nicht zufällig ausgewählt wurden, würde ein Vergleich ihrer KL-Abweichungen mit der bekannten globalen Verteilung ein Gefühl dafür vermitteln, wie "voreingenommen" die Samples sind , relativ zu dem einen oder anderen trotzdem?

Und schließlich, wenn die Antwort auf die vorherigen Fragen ja lautet, warum dann? Ist es möglich, diese Dinge allein aus statistischer Sicht zu verstehen, ohne irgendwelche (möglicherweise schwachen) Verbindungen zur Informationstheorie herzustellen?

— gazza89
quelle

Siehe meine Antwort hier: stats.stackexchange.com/questions/188903/… die sich nicht auf Informationstheorie bezieht

— kjetil b halvorsen

Ist KL-Divergenz nicht nur ein informationstheoretisches Konzept? Ich weiß, dass es die gegenseitige Information zwischen einem Bayesianischen Prior und einem posterioren oder ähnlichem gibt, und ich erinnere mich, dass ich es einmal im Kontext von Fenchel-Transformationen / Konjugaten (Theorie der großen Abweichungen) gesehen habe, aber auf jeden Fall dachte ich, dass es ein informationstheoretisches Konzept war .

— Chill2Macht

Antworten:

Es gibt einen rein statistischen Ansatz für die Kullback-Leibler-Divergenz: Nehmen Sie eine Stichprobe iid aus einer unbekannten Verteilung und betrachten Sie die mögliche Anpassung einer Verteilungsfamilie, $X_1,\ldots,X_n$ $p^\star$ Die entsprechende Wahrscheinlichkeit ist definiert als und dessen Logarithmus

F = {p_{θ}, θ \in Θ}

$\mathfrak{F}=\{p_\theta\,,\ \theta\in\Theta\}$

L (θ | x_{1}, \dots, x_{n}) = \prod_{i = 1}^{n} p_{θ} (x_{i})

$L(\theta|x_1,\ldots,x_n)=\prod_{i=1}^n p_\theta(x_i)$

ℓ (θ | x_{1}, \dots, x_{n}) = \sum_{i = 1}^{n} \log p_{θ} (x_{i})

$\ell(\theta|x_1,\ldots,x_n)=\sum_{i=1}^n \log p_\theta(x_i)$ Daher

ist der interessante Teil der Kullback-Leibler-Divergenz zwischen

und

\frac{1}{n} ℓ (θ | x_{1}, \dots, x_{n}) ⟶ E [\log p_{θ} (X)] = \int \log p_{θ} (x) p^{⋆} (x) d x

$\frac{1}{n} \ell(\theta|x_1,\ldots,x_n) \longrightarrow \mathbb{E}[\log p_\theta(X)]=\int \log p_\theta(x)\,p^\star(x)\text{d}x$

p_{θ}

$p_\theta$

p^{⋆}

$p^\star$

der andere Teil

H (p_{θ} | p^{⋆}) \overset{def}{=} \int \log {p^{⋆} (x) / p_{θ} (x)} p^{⋆} (x) d x

$\mathfrak{H}(p_\theta|p^\star)\stackrel{\text{def}}{=}\int \log \{p^\star(x)/p_\theta(x)\}\,p^\star(x)\text{d}x$

ist da, um das Minimum [in

] von

gleich Null zu haben.

\int \log {p^{⋆} (x)} p^{⋆} (x) d x

$\int \log \{p^\star(x)\}\,p^\star(x)\text{d}x$

θ

$\theta$

H (p_{θ} | p^{⋆})

$\mathfrak{H}(p_\theta|p^\star)$

Ein Buch, das Divergenz, Informationstheorie und statistische Inferenz verbindet, ist Rissanens Optimale Parameterschätzung , die ich hier besprochen habe .

— Xi'an
quelle

Gibt es eine Möglichkeit, ein numerisches Beispiel dafür zu sehen?

— Paul Uszak

Nun, ich meine, einige tatsächliche Zahlen zu sehen. Die Theorie ist süß, aber die Welt lebt von Zahlen. Es gibt keine Beispiele für KL-Divergenz, die tatsächliche Zahlen verwenden, daher bin ich zu dem Schluss gekommen, dass es sich um eine Theorie ohne mögliche Anwendung handelt. Das OP erörterte die Länge der Nachrichten in Bits und die Datenkomprimierung. Ich bezog mich auf ein Beispiel, das eine Reihe von

— Elementen enthielt

@PaulUszak: Wenn ich Ihnen sage, dass der Kullaback-Leibler-Abstand zwischen einer N (0,1) - und einer N (1,1) -Verteilung 1/2 beträgt, wie hilft das?

— Xi'an

@ Xi'an: Muss zwischen dieser Zahl 1/2 und der Leistung des entsprechenden Likelihood-Ratio-Tests ein Zusammenhang bestehen?

— kjetil b halvorsen

+1 Zum Kommentarthread: Der Gedanke, dass jedes Konzept, das nicht auf eine "Anzahl von Bits" reduziert werden kann, unbrauchbar ist, ist irritiert.

— whuber

Hier ist eine statistische Interpretation der Kullback-Leibler-Divergenz, die IJ Good lose entnommen wurde ( Beweiskraft: Eine kurze Übersicht , Bayesian Statistics 2, 1985).

Das Gewicht der Beweise.

$x_1, x_2, \dots, x_n$ $f_0$ $H_1$ $H_2$ $f_0$ $H_1 = \{f_1\}$ $H_2 = \{f_2\}$ $f_0$ $f_1$ $f_2$

$x = (x_1, \dots, x_n)$ $H_1$ $H_2$

W (x) = \log \frac{f_{1} (x)}{f_{2} (x)} .

$W(x) = \log \frac{f_1(x)}{f_2(x)} .$

P

$P$

H_{0}

$H_0$

H_{1}

$H_1$

W

$W$

\log \frac{P (H_{0} | x)}{P (H_{1} | x)} = W (x) + \log \frac{P (H_{0})}{P (H_{1})} .

$\log \frac{P(H_0 | x)}{P(H_1 | x)} = W(x) + \log\frac{P(H_0)}{P(H_1)}.$

W (x_{1}, \dots, x_{n}) = W (x_{1}) + \dots + W (x_{n}) .

$W(x_1, \dots, x_n) = W(x_1) + \dots +W(x_n) .$

W (x)

$W(x)$ $x$ $H_1$ $H_2$

$x$ $W(x)$ $W(x) > 2$

Die Kullback-Leibler-Divergenz

$f_1$ $f_2$ $x \sim f_1$

K L (f_{1}, f_{2}) = E_{x \sim f_{1}} W (x) = \int f_{1} \log \frac{f_{1}}{f_{2}} .

$KL(f_1, f_2) = \mathbb{E}_{x \sim f_1} W(x) = \int f_1 \log\frac{f_1}{f_2}.$

$x \sim f_1$ $H_1 = \{f_1\}$ $H_2$

E_{x \sim f_{1}} W (x) \geq 0.

$\mathbb{E}_{x \sim f_1} W(x) \geq 0.$

— Olivier
quelle

Ich habe noch keine einzige Erklärung dafür gefunden, wie diese beiden Konzepte überhaupt zusammenhängen.

Ich weiß nicht viel über Informationstheorie, aber so denke ich darüber: Wenn ich eine Person der Informationstheorie sagen höre, "Länge der Nachricht", sagt mein Gehirn "Überraschung". Die Überraschung ist 1.) zufällig und 2.) subjektiv.

$X$ $q(X)$ $- \log q(X)$

$q$ $X$ $p$ $p$ $E_p[-\log p(X)]$ $q$ $p$ $E_p[-\log q(X)]$

Anstatt darüber nachzudenken, "wie unterschiedlich sie sind", denke ich an die "Zunahme der erwarteten Überraschung durch die Verwendung der falschen Verteilung". Dies ist alles aus Eigenschaften des Logarithmus.

E_{p} [\log (\frac{p (X)}{q (X)})] = E_{p} [- \log q (X)] - E_{p} [- \log p (X)] \geq 0.

$E_p[\log \left( \frac{p(X)}{q(X)} \right)] = E_p[-\log q(X)] - E_p[- \log p(X)] \ge 0.$

Bearbeiten

$−\log(q(x))$ $q$

$X$ $q$ $x$ $0$ $-\log(0) = \infty$ $1$ $0$

$-\log$

$q(x) > 1$

$X \sim q_X(x)$ $Y=aX+b \sim q_x((y-b)/a)|1/a|$ $X$ $-\log q_X(X) \neq -\log q_Y(Y)$

$(X-EX)^2$ . We could interpret this as "extremeness." This quantity suffers from lack of invariance as well, but it doesn't render meaningless peoples' intuition about what variance is.

Edit 2: looks like I'm not the only one who thinks of this as "surprise." From here:

The residual information in data $y$ conditional on $\theta$ may be defined (up to a multiplicative constant) as $-2 \log\{ p(y \mid \theta)\}$ (Kullback and Leibler, 1951; Burnham and Anderson, 1998) and can be interpreted as a measure of 'surprise' (Good, 1956), logarithmic penalty (Bernardo, 1979) or uncertainty.

— Taylor
quelle

Can you elaborate on how

- \log (q (x))

$-\log(q(x))$ is a measure of "surprise"? This quantity alone seems meaningless, as it is not even invariant under linear transforms of the sample space (I assume

q

$q$ is a pdf).

— Olivier

Let

T

$T$ be the transform

T (X) = a X

$T(X) = aX$ ,

a \neq 0

$a \not = 0$ . Since

T

$T$ is invertible, observing

T (x)

$T(x)$ is, for me, the same as observing

x

$x$ : I can easily transform one into the other. Why should I be more surprised at observing

T (x)

$T(x)$ than I am at observing

x

$x$ ? (if

- \log q_{T (X)} (T (x)) > - \log q_{X} (x)

$-\log q_{T(X)}(T(x)) > -\log q_X (x)$ ) Invariance under invertible transforms is necessary to avoid this contradiction.

— Olivier

@Olivier yes this was all covered in my edit already. I don't see a contradiction. Consider variance, where you take the expectation of the transformation

(X - E [X])^{2}

$(X - E[X])^2$ . You could regard this random quantity as "extremeness." But you don't see me complaining about the lack of invariance

— Taylor