Hier gehe ich davon aus, dass Sie nur von den Modellen probieren können; Eine nicht normalisierte Dichtefunktion ist nicht verfügbar.
Du schreibst das
D.K.L.( f| | G) = ∫∞- ∞f( x ) log⎛⎝⎜⎜⎜f( x )G( x )= : r⎞⎠⎟⎟⎟dx ,
wo ich das Verhältnis der Wahrscheinlichkeiten zu . Alex Smola schreibt, obwohl in einem anderen Kontext, dass Sie diese Verhältnisse "leicht" schätzen können, indem Sie nur einen Klassifikator trainieren. Nehmen wir an, Sie haben einen Klassifikator , der Ihnen die Wahrscheinlichkeit angibt, dass eine Beobachtung durch erzeugt wurde . Man beachte, dass . Dann:p ( f | x ) x f p ( g | x ) = 1 - p ( f | x )rp ( f| x)xfp ( g| x)=1-p(f| x)
r = p ( x | f)p ( x | g)= p ( f| x) p ( x ) p ( g)p ( g|x)p(x)p(f)=p(f|x)p(g|x),
wobei der erste Schritt auf Bayes zurückzuführen ist und der letzte aus der Annahme folgt, dass .p ( g) = p ( f)
Das Erhalten eines solchen Klassifikators kann aus zwei Gründen recht einfach sein.
Zunächst können Sie stochastische Updates durchführen. Das heißt, wenn Sie einen gradientenbasierten Optimierer verwenden, wie er für logistische Regression oder neuronale Netze typisch ist, können Sie einfach aus jedem und eine Stichprobe ziehen und eine Aktualisierung vornehmen.gfG
Zweitens, da Sie praktisch unbegrenzte Daten haben - Sie können und einfach zu Tode abtasten -, müssen Sie sich keine Gedanken über Überanpassung oder ähnliches machen.gfG