Sie können sich Kapitel 3 von Devroye, Gyorfi und Lugosi, Eine probabilistische Theorie der Mustererkennung , Springer, 1996, ansehen. Siehe insbesondere den Abschnitt über Divergenzen.f
Abweichungen können als eine Verallgemeinerung von Kullback-Leibler angesehen werden (oder alternativ kann KL als ein Spezialfall einer f- Abweichung angesehen werden).ff
Die allgemeine Form ist
Df(p,q)=∫q(x)f(p(x)q(x))λ(dx),
wobei ein Maß ist, das die mit p und q verbundenen Maße dominiert, und f ( ⋅ ) eine konvexe Funktion ist, die f ( 1 ) = 0 erfüllt . (Wenn p ( x ) und q ( x ) sind Dichten in Bezug auf Lebesguemaß, ersetzen nur die Schreibweise d x für λ ( d x ) und du bist gut zu gehen.)λpqf(⋅)f(1)=0p(x)q(x)dxλ(dx)
Wir erholen KL, indem wir . Wir können die Hellinger-Differenz über f ( x ) = ( 1 - √ erhaltenf(x)=xlogxund wir erhalten dieGesamtvariationoderL1Entfernung, indem wirf(x)= 1 nehmenf(x)=(1−x−−√)2L1. Letzteres gibtf(x)=12|x−1|
DTV(p,q)=12∫|p(x)−q(x)|dx
Beachten Sie, dass dies mindestens eine endliche Antwort gibt.
In einem weiteren kleinen Buch mit dem Titel Density Estimation: The ViewL1 spricht sich Devroye (unter anderem) stark für die Verwendung dieser letzteren Distanz aus. Dieses letztere Buch ist wahrscheinlich etwas schwieriger zu bekommen als das erste und, wie der Titel andeutet, etwas spezialisierter.
Nachtrag : Durch diese Frage wurde mir bewusst, dass es den Anschein hat, dass das von @Didier vorgeschlagene Maß (bis zu einer Konstanten) als Jensen-Shannon-Divergenz bekannt ist. Wenn Sie dem Link zu der Antwort in dieser Frage folgen, werden Sie feststellen, dass es sich bei der Quadratwurzel dieser Größe tatsächlich um eine Metrik handelt, die in der Literatur zuvor als Spezialfall für eine Abweichung erkannt wurde . Ich fand es interessant, dass wir das Rad (ziemlich schnell) durch die Diskussion dieser Frage kollektiv "neu erfunden" haben. Die Interpretation, die ich in dem Kommentar unter @ Didiers Antwort dazu gegeben habe, wurde auch zuvor erkannt. Alles in allem irgendwie ordentlich.f