Jensen Shannon Divergenz gegen Kullback-Leibler Divergenz?


13

Ich weiß, dass die KL-Divergenz nicht symmetrisch ist und nicht streng als Metrik betrachtet werden kann. Wenn ja, warum wird es verwendet, wenn JS Divergence die erforderlichen Eigenschaften für eine Metrik erfüllt?

Gibt es Szenarien, in denen KL-Divergenz verwendet werden kann, nicht jedoch JS-Divergenz oder umgekehrt?


Sie werden beide verwendet, nur hängt es vom Kontext ab. Wenn klar ist, dass eine strenge Metrik erforderlich ist, z. B. wenn das Clustering durchgeführt wird, ist JS die bevorzugte Wahl. Andererseits ist bei der Modellauswahl die Verwendung von AIC, das auf KL basiert, weit verbreitet. Akaike-Gewichte haben eine schöne Interpretation, für die JS entweder kein Gegenstück liefern kann oder die noch nicht populär geworden ist.
James

Antworten:


5

Ich habe eine sehr ausgereifte Antwort auf die Quora gefunden und sie nur hier für Leute abgelegt, die hier danach suchen:

Die Kullback-Leibler-Divergenz hat einige nette Eigenschaften, eine davon ist, dass Regionen verabscheut, in denen eine Nicht-Null-Masse und eine Null-Masse hat. Dies mag wie ein Fehler aussehen, ist aber in bestimmten Situationen tatsächlich eine Funktion.𝐾𝐿[𝑞;𝑝]𝑞(𝑥)𝑝(𝑥)

Wenn Sie versuchen, Näherungen für eine komplexe (unlösbare) Verteilung durch eine (nachvollziehbare) ungefähre Verteilung , möchten Sie absolut sicher sein, dass alle 𝑥, die sehr unwahrscheinlich wären, aus wäre auch sehr unwahrscheinlich, aus . Dass KL diese Eigenschaft hat, lässt sich leicht zeigen: Es gibt ein im Integranden. Wenn 𝑞 (𝑥) klein ist, jedoch nicht, ist das in . Aber wenn klein ist, wächst dies sehr schnell, wenn nicht auch klein ist. Wenn Sie also wählen , um zu minimieren𝑝(𝑥)𝑞(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)]𝑝(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝐾𝐿[𝑞;𝑝]𝑞 (Es ist sehr unwahrscheinlich, dass Regionen, in denen nahe Null ist , viel Masse .𝑞(𝑥)𝑝(𝑥)

Die Jensen-Shannon-Divergenz hat diese Eigenschaft nicht. Es sich gut, wenn und klein sind. Dies bedeutet, dass eine Verteilung aus der Sie Werte können, die in unmöglich sind, nicht so .𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑝(𝑥)


1

KL-Divergenz hat eine klare informationstheoretische Interpretation und ist bekannt; Ich höre jedoch zum ersten Mal, dass die Symmetrisierung der KL-Divergenz als JS-Divergenz bezeichnet wird. Der Grund dafür, dass JS-Divergenz nicht so häufig verwendet wird, ist wahrscheinlich, dass sie weniger bekannt ist und keine Must-Have-Eigenschaften bietet.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.