Warum ist KL-Divergenz nicht negativ?

Warum ist die KL-Divergenz nicht negativ?

Aus informationstheoretischer Sicht verstehe ich das so intuitiv:

Angenommen, es gibt zwei Ensembles $A$ und $B$ die aus der gleichen Menge von Elementen bestehen, die mit $x$ . $p(x)$ und $q(x)$ sind verschiedene Wahrscheinlichkeitsverteilungen über ensemble und jeweils. $A$ $B$

Aus informationstheoretischer Sicht ist $\log_{2}(P(x))$ die kleinste Menge von Bits, die zum Aufzeichnen eines Elements $x$ für Ensemble erforderlich ist $A$ . Damit ist die Erwartung

\sum_{x \in e n s e m b l e} - p (x) \ln (p (x))

$\sum_{x \in ensemble}-p(x)\ln(p(x))$ als mindestens wie viele Bits interpretiert werden, die wir imDurchschnittzum Aufzeichnen eines Elements in

benötigen

A

$A$ .

Da diese Formel eine untere Schranke für die Bits setzt, die wir im Durchschnitt benötigen, so dass für ein anderes Ensemble $B$ das eine andere Wahrscheinlichkeitsverteilung bewirkt $q(x)$ , die Schranke, die es für jedes Element $x$ gibt, mit Sicherheit kein Bit ist gegeben durch $p(x)$ , was bedeutet, dass die Erwartung genommen wird,

\sum_{x \in e n s e m b l e} - p (x) \ln (q (x))

$\sum_{x\in ensemble}-p(x)\ln(q(x))$ diese durchschnittliche Länge wird sicherlich größer sein als die erstere, was zu

setze ich hier nicht

, da

und

unterschiedlich sind.

\sum_{x \in e n s e m b l e} p (x) \frac{\ln (p (x))}{\ln (q (x))} > 0

$\sum_{x\in ensemble }p(x)\frac{\ln(p(x))}{\ln(q(x))} > 0$

\geq

$\ge$

p (x)

$p(x)$

q (x)

$q(x)$

Dies ist mein intuitives Verständnis. Gibt es eine rein mathematische Methode, um zu beweisen, dass die KL-Divergenz nicht negativ ist? Das Problem kann wie folgt angegeben werden:

Angesichts und beide positiv über reale Linie und , . Beweisen Sie, dass $p(x)$ $q(x)$ $\int_{-\infty}^{+\infty}p(x)dx = 1$ $\int_{-\infty}^{+\infty}q(x)dx = 1$ ist nicht negativ.

\int_{- \infty}^{+ \infty} p (x) \ln \frac{p (x)}{q (x)}

$\int_{-\infty}^{+\infty}p(x)\ln\frac{p(x)}{q(x)}$

Wie kann das bewiesen werden? Oder kann dies ohne zusätzliche Bedingungen bewiesen werden?

information-theory kullback-leibler

— meTchaikovsky
quelle

Wenn Sie den Beweis für die verstehen Fano Ungleichung ist es leicht zu leiten , die Nichtnegativitätsbedingungen der relativen Entropie.

— Lerner Zhang

Beweis 1:

Beachten Sie zunächst, dass für alle $\ln a \leq a-1$ $a \gt 0$ .

Wir werden nun zeigen, dass was bedeutet, dass $-D_{KL}(p||q) \leq 0$ $D_{KL}(p||q) \geq 0$

\begin{aligned} - D (p | | q) & = - \sum_{x} p (x) \ln \frac{p (x)}{q (x)} \\ = \sum_{x} p (x) \ln \frac{q (x)}{p (x)} \\ \overset{(a)}{\leq} \sum_{x} p (x) (\frac{q (x)}{p (x)} - 1) \\ = \sum_{x} q (x) - \sum_{x} p (x) \\ = 1 - 1 \\ = 0 \end{aligned}

$\begin{align} -D(p||q)&=-\sum_x p(x)\ln \frac{p(x)}{q(x)}\\ &= \sum_x p(x)\ln \frac{q(x)}{p(x)}\\ &\stackrel{\text{(a)}}{\leq} \sum_x p(x)\left(\frac{q(x)}{p(x)}-1\right)\\ &=\sum_x q(x) - \sum_x p(x)\\ &= 1 - 1\\ &= 0 \end{align}$

For inequality (a) we used the $\ln$ inequality explained in the beginning.

Alternatively you can start with Gibbs' inequality which states:

- \sum_{x} p (x) \log_{2} p (x) \leq - \sum_{x} p (x) \log_{2} q (x)

$-\sum_x p(x) \log_2 p(x) \leq -\sum_x p(x)\log_2 q(x)$

Then if we bring the left term to the right we get:

\sum_{x} p (x) \log_{2} p (x) - \sum_{x} p (x) \log_{2} q (x) \geq 0 \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \geq 0

$\sum_x p(x) \log_2 p(x) - \sum_x p(x)\log_2 q(x)\geq 0 \\ \sum_x p(x)\log_2 \frac{p(x)}{q(x)}\geq 0$

The reason I am not including this as a separate proof is because if you were to ask me to prove Gibbs' inequality, I would have to start from the non-negativity of KL divergence and do the same proof from the top.

Proof 2: We use the Log sum inequality:

\sum_{i = 1}^{n} a_{i} \log_{2} \frac{a_{i}}{b_{i}} \geq (\sum_{i = 1}^{n} a_{i}) \log_{2} \frac{\sum_{i = 1}^{n} a_{i}}{\sum_{i = 1}^{n} b_{i}}

$\sum_{i=1}^{n} a_i \log_2 \frac{a_i}{b_i} \geq \left(\sum_{i=1}^{n} a_i\right)\log_2\frac{\sum_{i=1}^{n} a_i}{\sum_{i=1}^{n} b_i}$

Then we can show that $D_{KL}(p||q) \geq 0$ :

\begin{aligned} D (p | | q) & = \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \\ \overset{(b)}{\geq} (\sum_{x} p (x)) \log_{2} \frac{\sum_{x} p (x)}{\sum_{x} q (x)} \\ = 1 \cdot \log_{2} \frac{1}{1} \\ = 0 \end{aligned}

$\begin{align} D(p||q)&=\sum_x p(x)\log_2 \frac{p(x)}{q(x)}\\ &\stackrel{\text{(b)}}{\geq} \left(\sum_x p(x)\right)\log_2\frac{\sum_x p(x)}{\sum_x q(x)}\\ &=1 \cdot \log_2 \frac{1}{1}\\ &=0 \end{align}$

where we have used the Log sum inequality at (b).

Proof 3:

(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)

\begin{aligned} - D (p | | q) & = - \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \\ = \sum_{x} p (x) \log_{2} \frac{q (x)}{p (x)} \\ \overset{(c)}{\leq} \log_{2} \sum_{x} p (x) \frac{q (x)}{p (x)} \\ = \log_{2} 1 \\ = 0 \end{aligned}

$\begin{align} -D(p||q)&=-\sum_x p(x)\log_2 \frac{p(x)}{q(x)}\\ &= \sum_x p(x)\log_2 \frac{q(x)}{p(x)}\\ &\stackrel{\text{(c)}}{\leq} \log_2 \sum_x p(x)\frac{q(x)}{p(x)}\\ &=\log_2 1\\ &=0 \end{align}$

where at (c) we have used Jensen's inequality and the fact that $\log$ is a concave function.

— Andreas G.
quelle