Die Kullback-Leibler-Divergenz ist keine eigentliche Metrik, da sie nicht symmetrisch ist und auch die Dreiecksungleichung nicht erfüllt. Die "Rollen", die von den beiden Verteilungen gespielt werden, sind also unterschiedlich, und es ist wichtig, diese Rollen entsprechend dem untersuchten realen Phänomen zu verteilen.
Wenn wir schreiben (das OP hat den Ausdruck mit Hilfe von Base-2-Logarithmen berechnet)
K(P||Q)=∑ilog2(pi/qi)pi
Wir betrachten die Verteilung als die "Zielverteilung" (normalerweise als die wahre Verteilung betrachtet), die wir mit der Q- Verteilung approximieren.PQ
Jetzt,
∑ilog2(pi/qi)pi=∑ilog2(pi)pi−∑ilog2(qi)pi=−H(P)−EP(ln(Q))
wobei ist die Shannon - Entropie der Verteilung P und - E P ( ln ( Q ) ) wird als die "Quer Entropie genannt P und Q " -auch nicht symmetrisch.H(P)P−EP(ln(Q))PQ
Schreiben
K(P||Q)=H(P,Q)−H(P)
(Auch hier zeigt die Reihenfolge, in der wir die Verteilungen im Ausdruck der Kreuzentropie aufschreiben, da sie ebenfalls nicht symmetrisch sind), dass die KL-Divergenz eine Zunahme der Entropie über die unvermeidbare Entropie der Verteilung widerspiegelt .P
Also, nein , KL-Divergenz ist besser nicht als "Abstandsmaß" zwischen Verteilungen zu interpretieren, sondern als Maß für die Entropiezunahme aufgrund der Verwendung einer Annäherung an die wahre Verteilung anstatt der wahren Verteilung selbst .
Wir befinden uns also im Land der Informationstheorie. Um es von den Meistern zu hören (Cover & Thomas) "
... wenn wir die wahre Verteilung der Zufallsvariablen kennen würden, könnten wir einen Code mit durchschnittlicher Beschreibungslänge H ( P ) konstruieren . Wenn wir stattdessen den Code für eine Verteilung Q verwenden würden, bräuchten wir durchschnittlich H ( P ) + K ( P | | Q ) Bits, um die Zufallsvariable zu beschreiben.PH(P)QH(P)+K(P||Q)
Die gleichen weisen Leute sagen
... es ist kein echter Abstand zwischen Verteilungen, da er nicht symmetrisch ist und die Dreiecksungleichung nicht erfüllt. Trotzdem ist es oft nützlich, die relative Entropie als „Distanz“ zwischen Verteilungen zu betrachten.
Dieser letztere Ansatz ist jedoch vor allem dann nützlich, wenn versucht wird, die KL-Divergenz zu minimieren , um ein Schätzverfahren zu optimieren. Für die Interpretation seines Zahlenwertes an sich ist es nicht sinnvoll, und man sollte den Ansatz der "Entropieerhöhung" vorziehen.
Für die spezifischen Verteilungen der Frage (immer unter Verwendung von Logarithmen zur Basis 2)
K(P||Q)=0.49282,H(P)=1.9486
QP