Wie funktioniert der Umparametrierungstrick für VAEs und warum ist das wichtig?

57

Wie funktioniert der Umparametrierungstrick für Variations-Autoencoder (VAE)? Gibt es eine intuitive und einfache Erklärung, ohne die zugrunde liegende Mathematik zu vereinfachen? Und warum brauchen wir den "Trick"?

— David Dao
quelle

5

Ein Teil der Antwort ist zu bemerken, dass alle Normal-Distributionen nur skalierte und übersetzte Versionen von Normal (1, 0) sind. Um aus Normal (mu, sigma) zu zeichnen, können Sie aus Normal (1, 0) zeichnen, mit Sigma (Skala) multiplizieren und mu (Übersetzen) hinzufügen.

— Mönch

@monk: Es hätte normal (0,1) statt (1,0) richtig sein sollen, sonst würde das Multiplizieren und Verschieben komplett Heudraht gehen!

— Rika,

@Breeze Ha! Ja, natürlich danke.

— Mönch

57

Nachdem ich die NIPS 2015-Workshop-Folien von Kingma gelesen hatte , wurde mir klar, dass wir den Umparametrierungstrick benötigen, um eine Rückübertragung durch einen zufälligen Knoten durchzuführen.

Intuitiv in seiner ursprünglichen Form, VAES Probe aus einem zufälligen Knoten , die durch das parametrische Modell angenähert wird der wahren posterior. Backprop kann nicht durch einen zufälligen Knoten fließen. $z$ $q(z \mid \phi, x)$

Durch die Einführung eines neuen Parameters können wir neu parametrisieren , dass Backprop durch die deterministischen Knoten fließt. $\epsilon$ $z$

— David Dao
quelle

3

Warum ist

jetzt rechts deterministisch?

z

$z$

— bringingdownthegauss

2

Es ist nicht, aber es ist keine "Quelle der Zufälligkeit" - diese Rolle wurde von

.

ϵ

$\epsilon$

— quant_dev

Beachten Sie, dass diese Methode vor 2014 mehrmals vorgeschlagen wurde: blog.shakirm.com/2015/10/…

— quant_dev

2

So einfach, so intuitiv! Gute Antwort!

— Serhiy

2

Leider ist es nicht. Die ursprüngliche Form kann jedoch mit höherer Varianz immer noch rückpropagierbar sein. Details finden Sie in meinem Beitrag .

— JP Zhang

56

$q$ $\theta$ $q_{\theta}(x) = N(\theta,1)$

{min}_{θ} E_{q} [x^{2}]

$\text{min}_{\theta} \quad E_q[x^2]$

θ

$\theta$

E_{q} [x^{2}]

$E_q[x^2]$

$\nabla_{\theta} E_q[x^2]$

\nabla_{θ} E_{q} [x^{2}] = \nabla_{θ} \int q_{θ} (x) x^{2} d x = \int x^{2} \nabla_{θ} q_{θ} (x) \frac{q_{θ} (x)}{q_{θ} (x)} d x = \int q_{θ} (x) \nabla_{θ} \log q_{θ} (x) x^{2} d x = E_{q} [x^{2} \nabla_{θ} \log q_{θ} (x)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} \int q_{\theta}(x) x^2 dx = \int x^2 \nabla_{\theta} q_{\theta}(x) \frac{q_{\theta}(x)}{q_{\theta}(x)} dx = \int q_{\theta}(x) \nabla_{\theta} \log q_{\theta}(x) x^2 dx = E_q[x^2 \nabla_{\theta} \log q_{\theta}(x)]$

$q_{\theta}(x) = N(\theta,1)$

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ)]

$\nabla_{\theta} E_q[x^2] = E_q[x^2 (x-\theta)]$

$\theta$ $q$ $\theta$ $x$

x = θ + ϵ, ϵ \sim N (0, 1)

$x = \theta + \epsilon, \quad \epsilon \sim N(0,1)$

E_{q} [x^{2}] = E_{p} [(θ + ϵ)^{2}]

$E_q[x^2] = E_p[(\theta+\epsilon)^2]$

p

$p$

ϵ

$\epsilon$

N (0, 1)

$N(0,1)$

E_{q} [x^{2}]

$E_q[x^2]$

\nabla_{θ} E_{q} [x^{2}] = \nabla_{θ} E_{p} [(θ + ϵ)^{2}] = E_{p} [2 (θ + ϵ)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} E_p[(\theta+\epsilon)^2] = E_p[2(\theta+\epsilon)]$

Hier ist ein von mir geschriebenes IPython-Notizbuch, das die Varianz dieser beiden Methoden zur Berechnung von Verläufen untersucht. http://nbviewer.jupyter.org/github/gokererdogan/Notebooks/blob/master/Reparameterization%20Trick.ipynb

— goker
quelle

4

Was ist das "offensichtliche" Theta für die erste Gleichung?

— GWG

2

es ist 0. Eine Möglichkeit, dies zu sehen, besteht darin, zu beachten, dass E [x ^ 2] = E [x] ^ 2 + Var (x), was in diesem Fall Theta ^ 2 + 1 ist. Theta = 0 minimiert also dieses Ziel.

— goker

Kommt es also ganz auf das Problem an? Zum Beispiel kann min_ \ theta E_q [| x | ^ (1/4)] völlig anders sein?

— Anne van Rossum

Was hängt vom Problem ab? Das optimale Theta? Wenn ja, hängt es sicherlich vom Problem ab.

— goker

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ) q_{θ} (x)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta) q_\theta(x)]$

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta)]$

17

Ein vernünftiges Beispiel für die Mathematik des "Tricks der Neuparametrisierung" ist in der Antwort von Goker angegeben, aber eine gewisse Motivation könnte hilfreich sein. (Ich habe keine Berechtigung, diese Antwort zu kommentieren. Daher hier eine separate Antwort.)

$G_\theta$

G_{θ} = \nabla_{θ} E_{x \sim q_{θ}} [\dots]

$G_\theta = \nabla_{\theta}E_{x\sim q_\theta}[\ldots]$

$E_{x\sim q_\theta}[G^{est}_\theta(x)]$

G_{θ}^{e s t} (x) = \dots \frac{1}{q_{θ} (x)} \nabla_{θ} q_{θ} (x) = \dots \nabla_{θ} \log (q_{θ} (x))

$G^{est}_\theta(x) = \ldots\frac{1}{q_\theta(x)}\nabla_{\theta}q_\theta(x) = \ldots\nabla_{\theta} \log(q_\theta(x))$

$x$ $q_\theta$ $G^{est}_\theta$ $G_\theta$ $\theta$

$G^{est}_\theta$ $G_\theta$

$G_\theta$ $x$ $x$ $q_\theta(x)$ $\frac{1}{q_\theta(x)}$ $x$ $G_\theta$ $q_\theta$ $G^{est}_\theta$ $x$ $q_\theta$ $\theta$ Dies kann weit vom Optimum entfernt sein (z. B. ein willkürlich gewählter Anfangswert). Es ist ein bisschen wie die Geschichte des Betrunkenen, der in der Nähe der Straßenlaterne nach seinen Schlüsseln sucht (weil er sie dort sehen / probieren kann), anstatt in der Nähe, wo er sie fallen lässt.

$x$ $\epsilon$ $p$ $\theta$ $G_\theta$ $p$

G_{θ} = \nabla_{θ} E_{ϵ \sim p} [J (θ, ϵ)] = E_{ϵ \sim p} [\nabla_{θ} J (θ, ϵ)]

$G_\theta = \nabla_\theta E_{\epsilon\sim p}[J(\theta,\epsilon)] = E_{\epsilon\sim p}[ \nabla_\theta J(\theta,\epsilon)]$

J (θ, ϵ)

$J(\theta,\epsilon)$

$\nabla_\theta J(\theta,\epsilon)$ $p$ $\epsilon$ $p$ $\theta$ $p$

$\nabla_\theta J(\theta,\epsilon)$ $G_\theta$ $G_\theta$ $\epsilon$ $p$ $p$ $\epsilon$ $J$

Ich hoffe das hilft.

— Seth Bruder
quelle

"Der Faktor 1 / qθ (x) erhöht Ihre Schätzung, um dies zu berücksichtigen. Wenn Sie jedoch nie einen solchen Wert von x sehen, hilft diese Skalierung nicht." Kannst du mehr erklären?

— czxttkl

q_{θ}

$q_\theta$

x

$x$

x

$x$

G_{θ}^{e s t} (x)

$G_{\theta}^{est}(x)$

1 / q_{θ}

$1/q_\theta$

10

Lassen Sie mich zunächst erklären, warum wir in VAE einen Umparametrierungstrick benötigen.

VAE verfügt über Encoder und Decoder. Der Decoder tastet nach dem Zufallsprinzip das wahre hintere Z ~ q (z∣ϕ, x) ab . Um Codierer und Decodierer als ein neuronales Netzwerk zu implementieren, müssen Sie durch zufällige Stichproben eine Rückübertragung durchführen, und das ist das Problem, da die Rückübertragung nicht durch zufällige Knoten fließen kann. Um dieses Hindernis zu überwinden, verwenden wir einen Umparametrierungstrick.

Nun kommen wir zum Trick. Da unser posterior normalverteilt ist, können wir es mit einer anderen Normalverteilung approximieren. Wir approximieren Z mit normalverteiltem ε .

Aber wie ist das relevant?

Anstatt nun zu sagen, dass Z aus q (z∣ϕ, x) abgetastet wird , können wir sagen, dass Z eine Funktion ist, die Parameter (ε, (µ, L)) übernimmt und diese µ, L aus dem oberen neuronalen Netzwerk (Encoder) stammen. . Während die Rückübertragung alles ist, was wir brauchen, ist die partielle Ableitung von µ, L und ε für die Ableitung irrelevant.

— Sherlock
quelle

Bestes Video, um dieses Konzept zu verstehen. Zum besseren Verständnis würde ich empfehlen, ein komplettes Video anzuschauen, aber wenn Sie nur den Umparametrierungstrick verstehen möchten, schauen Sie es ab 8 Minuten an. youtube.com/channel/UCNIkB2IeJ-6AmZv7bQ1oBYg

— Sherlock

9

Ich fand die Erklärung im Stanford CS228-Kurs über probabilistische Grafikmodelle sehr gut. Es kann hier gefunden werden: https://ermongroup.github.io/cs228-notes/extras/vae/

Ich habe die wichtigen Teile hier aus Gründen der Übersichtlichkeit zusammengefasst / kopiert (obwohl ich dringend empfehle, nur den Original-Link zu lesen).

\nabla_{ϕ} E_{z \sim q (z | x)} [f (x, z)]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)]$

Wenn Sie mit Bewertungsfunktionen vertraut sind (ich glaube, REINFORCE ist nur ein Sonderfall davon), werden Sie feststellen, dass dies so ziemlich das Problem ist, das sie lösen. Der Bewertungsfunktionsschätzer weist jedoch eine hohe Varianz auf, was häufig zu Schwierigkeiten beim Lernen von Modellen führt.

$q_\phi (z|x)$

$\epsilon$ $p(\epsilon)$ $g_\phi(\epsilon, x)$ $q_\phi$

Als Beispiel verwenden wir ein sehr einfaches q, aus dem wir ein Sample erstellen.

z \sim q_{μ, σ} = N (μ, σ)

$z \sim q_{\mu, \sigma} = \mathcal{N}(\mu, \sigma)$

q

$q$

z = g_{μ, σ} (ϵ) = μ + ϵ \cdot σ

$z = g_{\mu, \sigma}(\epsilon) = \mu + \epsilon\cdot\sigma$

ϵ \sim N (0, 1)

$\epsilon \sim \mathcal{N}(0, 1)$

$p(\epsilon)$

\nabla_{ϕ} E_{z \sim q (z | x)} [f (x, z)] = E_{ϵ \sim p (ϵ)} [\nabla_{ϕ} f (x, g (ϵ, x))]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)] = \mathbb{E}_{\epsilon \sim p(\epsilon)}[\nabla_\phi f(x,g(\epsilon, x))]$

Dies hat aus imo nicht trivialen Gründen eine geringere Varianz. In Teil D des Anhangs finden Sie eine Erklärung: https://arxiv.org/pdf/1401.4082.pdf

— Horace er
quelle

Hallo, weißt du, warum in der Implementierung sie den Standard durch 2 teilen? (dh std = torch.exp (z_var / 2)) in der Umparametrierung?

— Rika

4

Wir haben unser probablistisches Modell. Und möchten Parameter des Modells wiederherstellen. Wir reduzieren unsere Aufgabe auf die Optimierung der unteren Variationsgrenze (VLB). Dazu sollten wir zwei Dinge machen können:

VLB berechnen
Gradient von VLB erhalten

Autoren schlagen vor, Monte Carlo Estimator für beide zu verwenden. Und tatsächlich führen sie diesen Trick ein, um einen genaueren Monte-Carlo-Gradientenschätzer für VLB zu erhalten.

Es ist nur eine Verbesserung der numerischen Methode.

— Anton
quelle

2

Der Umparametrierungstrick reduziert die Varianz des MC-Schätzers für den Gradienten dramatisch. Es ist also eine Varianzreduktionstechnik :

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right]$

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)] = E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w) \nabla_{ϕ} \log q_{ϕ} (z)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \nabla_\phi \log q_\phi(z)\right]$

p (x^{(i)} ∣ z^{(i)}, w)

$p\left( x^{(i)} \mid z^{(i)}, w \right)$

\log p (x^{(i)} ∣ z^{(i)}, w)

$\log p\left( x^{(i)} \mid z^{(i)}, w \right)$ ist sehr groß und der Wert selbst ist negativ. Wir hätten also eine hohe Varianz.

$z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)] = E_{p (ϵ^{(i)})} [\nabla_{ϕ} \log p (x^{(i)} ∣ g (ϵ^{(i)}, x^{(i)}, ϕ), w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{p(\epsilon^{(i)})} \left[ \nabla_\phi \log p\left( x^{(i)} \mid g(\epsilon^{(i)}, x^{(i)}, \phi), w \right) \right]$

$p(\epsilon^{(i)})$ $p(\epsilon^{(i)})$ $\phi$

$z^{(i)}$ $z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

— chris elgoog
quelle