Was ist der Maximalwert der Kullback-Leibler (KL) -Divergenz?


14

Ich werde KL-Divergenz in meinem Python-Code verwenden und habe dieses Tutorial erhalten .

In diesem Tutorial ist die Implementierung der KL-Divergenz recht einfach.

kl = (model * np.log(model/actual)).sum()

Soweit ich weiß, sollte die Wahrscheinlichkeitsverteilung von modelund actual<= 1 sein.

Meine Frage ist, was ist die maximale Schranke / der maximal mögliche Wert von k ?. Ich muss den maximal möglichen Wert von kl distance kennen, wie für die maximale Grenze in meinem Code.


Antworten:


16

Oder sogar mit der gleichen Unterstützung, wenn eine Distribution einen viel dickeren Schwanz hat als die andere. Nimm

KL(P||Q)=p(x)log(p(x)q(x))dx
wenn
p(x)=1π11+x2Cauchy densityq(x)=12πexp{x2/2}Normal density
dann
KL(P||Q)=1π11+x2logp(x)dx+1π11+x2[log(2π)/2+x2/2]dx
und
1π11+x2x2/2dx=+
Es gibt andere Abstände, die begrenzt bleiben, wie z
  • die L¹ Distanz, die der gesamten Variationsdistanz entspricht,
  • die Wassersteinabstände
  • die Hellinger Entfernung

1
Sehr gute Bemerkung @ Xi'an
Carlos Campos

Thanks @ Xi'an ist das Mittel, sogar die Summe aller Bins für beide Distributionen ist = 1, kl Divergenz hat keine maximale Grenze? Haben Sie eine andere Abstandsfunktion für zwei Wahrscheinlichkeitsverteilungen, die die maximale / statische Grenze definiert haben?
user46543

Ist P in diesem Fall in Bezug auf Q absolut stetig?
Sangwoong Yoon

In welchem ​​Fall"? Die KL ist nicht als solche für Distributionen definiert, die meines Erachtens nicht absolut kontinuierlich zueinander sind.
Xi'an

12

Für Distributionen, die nicht die gleiche Unterstützung haben, ist die KL-Divergenz nicht begrenzt. Schauen Sie sich die Definition an:

KL(P||Q)=p(x)ln(p(x)q(x))dx

Wenn P und Q nicht die gleiche Unterstützung haben, gibt es einen Punkt dem p ( x ' ) 0 und q ( x ' ) = 0 sind , wodurch KL ins Unendliche geht. Dies gilt auch für diskrete Verteilungen, wie dies bei Ihnen der Fall ist.xp(x)0q(x)=0

Edit: Vielleicht wäre eine bessere Wahl, um die Divergenz zwischen Wahrscheinlichkeitsverteilungen zu messen, die sogenannte Wasserstein-Distanz, die eine Metrik ist und bessere Eigenschaften hat als die KL-Divergenz. Es ist aufgrund seiner Anwendungen im Deep-Learning-Bereich sehr beliebt geworden (siehe WGAN-Netzwerke).


Danke @ carlos-campos, meine Verteilung, sowohl das tatsächliche als auch das Modell haben den gleichen Zustand, der die Summe aller Fächer = 1 ist. Heißt das, meine Kl-Divergenz hat immer noch keine maximale Grenze? Ich werde auf wassertein Abstand schauen
user46543

Hat die Entfernung von Wasserstein oder Earth Mover eine explizite maximale Grenze? weil ich es brauche.
user46543

@ user46543 Wasserstein Entfernung kann so hoch sein wie
Mark L. Stone

Hallo @ MarkL.Stone, gibt es also keine Distanzfunktion zur Berechnung der Distanz zwischen zwei Wahrscheinlichkeitsverteilungen, an die das statische Maximum gebunden ist? zB während zwei Wahrscheinlichkeitsverteilungen die Summe von 1 haben und die maximale Grenze der Entfernung 1 ist. Bin ich richtig?
user46543

3

Um die hervorragenden Antworten von Carlos und Xi'an zu ergänzen , ist es auch interessant festzustellen, dass eine ausreichende Bedingung für die Endlichkeit der KL-Divergenz darin besteht, dass beide Zufallsvariablen den gleichen kompakten Träger haben und dass die Referenzdichte begrenzt wird . Dieses Ergebnis legt auch eine implizite Grenze für das Maximum der KL-Divergenz fest (siehe Satz und Beweis unten).


Satz: Wenn die Dichten und q den gleichen kompakten Träger X haben und die Dichte p an diesen Träger gebunden ist (dh eine endliche Obergrenze hat), dann ist K L ( P | | Q ) < .pqXpKL(P||Q)<

Beweis: Da kompakte Unterstützung X hat, bedeutet dies, dass es einen positiven Infimumwert gibt:qX

q_infxXq(x)>0.

Ebenso, da kompakte Unterstützung hatp hat, dass es einen positiven Supremum-Wert gibt:X

p¯supxXp(x)>0.

Da diese beiden Dichten auf dem gleichen Träger sind und diese begrenzt ist, haben wir . Das bedeutet, dass:0<q_p¯<

supxXln(p(x)q(x))ln(p¯)ln(q_).

Wenn die letzte obere Schranke ist, haben wir eindeutig 0 L _ < ∞, so dass:L_ln(p¯)ln(q_)0L_<

KL(P||Q)=Xln(p(x)q(x))p(x)dxsupxXln(p(x)q(x))Xp(x)dx(ln(p¯)ln(q_))Xp(x)dx=L_<.


The result is correct but the constraint heavy: a Beta B(α,β) density does not enjoy a compact support when max(α,β)>1.
Xi'an

Das stimmt: Es ist immerhin nur eine ausreichende Bedingung. Schwächere Konditionen sind willkommen!
Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.