KL Verlust mit einer Einheit Gauß

10

Ich habe eine VAE implementiert und zwei verschiedene Online-Implementierungen der vereinfachten univariaten Gaußschen KL-Divergenz festgestellt. Die ursprüngliche Abweichung gemäß hier ist Wenn wir annehmen, dass unser Prior eine Einheit Gauß'sche ist, dh und , vereinfacht sich dies bis hinunter zu Und hier liegt meine Verwirrung. Obwohl ich mit der obigen Implementierung einige obskure Github-Repos gefunden habe, wird sie häufiger verwendet:

K L_{l o s s} = \log (\frac{σ_{2}}{σ_{1}}) + \frac{σ_{1}^{2} + (μ_{1} - μ_{2})^{2}}{2 σ_{2}^{2}} - \frac{1}{2}

$KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2}$

μ_{2} = 0

$\mu_2=0$

σ_{2} = 1

$\sigma_2=1$

K L_{l o s s} = - \log (σ_{1}) + \frac{σ_{1}^{2} + μ_{1}^{2}}{2} - \frac{1}{2}

$KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2}$

K L_{l o s s} = - \frac{1}{2} (2 \log (σ_{1}) - σ_{1}^{2} - μ_{1}^{2} + 1)

$KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1)$

= - \frac{1}{2} (\log (σ_{1}) - σ_{1} - μ_{1}^{2} + 1)

$=-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1)$ Zum Beispiel im offiziellen Keras-Autoencoder-Tutorial . Meine Frage ist dann, was fehlt mir zwischen diesen beiden? Der Hauptunterschied besteht darin, den Faktor 2 auf den logarithmischen Term zu setzen und die Varianz nicht zu quadrieren. Analytisch habe ich letzteres mit Erfolg eingesetzt, für was es wert ist. Vielen Dank im Voraus für jede Hilfe!

— groovyDragon
quelle

7

Beachten Sie, dass Sie durch Ersetzen von durch in der letzten Gleichung die vorherige wiederherstellen (dh ). Dies lässt mich denken, dass im ersten Fall der Encoder zur Vorhersage der Varianz verwendet wird, während er im zweiten Fall zur Vorhersage der Standardabweichung verwendet wird. $\sigma_1$ $\sigma_1^2$ $\log(\sigma_1) - \sigma_1 \rightarrow 2\log(\sigma_1) - \sigma_1^2$

Beide Formulierungen sind äquivalent und das Ziel bleibt unverändert.

— F. Evlangeli
quelle

Ich denke nicht, dass dies der Fall sein kann. Ja, beide werden minimiert, wenn für Null und Einheit . In der ursprünglichen Gleichung (mit der Varianz) ist die Strafe für das Entfernen von von der Einheit jedoch weitaus größer als in der zweiten Gleichung (basierend auf der Standardabweichung). Die Strafe für Variationen in ist für beide gleich, und der Rekonstruktionsfehler wäre der gleiche, so dass die Verwendung der zweiten Version die relative Bedeutung von Abweichungen von von der Einheit dramatisch ändert . Was vermisse ich?

μ

$\mu$

σ

$\sigma$

σ

$\sigma$

μ

$\mu$

σ

$\sigma$

— TheBamf

0

Ich glaube, die Antwort ist einfacher. In VAE verwenden Menschen normalerweise eine multivariate Normalverteilung, die eine Kovarianzmatrix anstelle von Varianz . Das sieht in einem Code verwirrend aus, hat aber die gewünschte Form. $\Sigma$ $\sigma^2$

Hier finden Sie die Ableitung einer KL-Divergenz für multivariate Normalverteilungen: Ableitung des KL-Divergenzverlusts für VAEs

— Dmitry Grebenyuk
quelle