Klarstellung der Erwartungsmaximierung

Ich fand ein sehr hilfreiches Tutorial zum EM-Algorithmus .

Das Beispiel und das Bild aus dem Tutorial sind einfach genial.

Geben Sie hier die Bildbeschreibung ein

Verwandte Frage zur Berechnung von Wahrscheinlichkeiten Wie funktioniert die Erwartungsmaximierung?

Ich habe noch eine Frage, wie man die im Tutorial beschriebene Theorie mit dem Beispiel verbindet.

$g_t$ $\log P(x;\Theta)$ $g_t( \hat{\Theta}^{(t)}) = \log P(x; \hat{\Theta}^{(t)})$

$g_t$

$\hat{\Theta}_A^{(0)} = 0.6$ $\hat{\Theta}_B^{(0)} = 0.5$ $\hat{\Theta}_A^{(1)} = 0.71$ $\hat{\Theta}_B^{(1)} = 0.58$ $\hat{\Theta}^{(0)}$ $\hat{\Theta}^{(1)}$

$Q(z)$ $Q(z)=P(z|x;\Theta)$

Vielen Dank.

— user16168
quelle

Ich fand diese Notizen sehr hilfreich, um herauszufinden, was im ergänzenden Material vor sich ging.

Ich werde diese Fragen aus Gründen der Kontinuität etwas außer Betrieb beantworten.

Erstens: Warum ist es das?

$\theta^{(0)} \ne \theta^{(1)}$

$g_0$ $\log(P(x;\theta))$ $\theta^{(0)}$ $\theta^{(1)}$ $g_0$ $\theta$

Zweitens: Warum ist die Ungleichung eng, wenn

Q (z) = P (z | x; θ)

$Q(z) = P(z|x;\theta)$

In den Fußnoten gibt es einen Hinweis darauf, wo es heißt:

$y=E[y]$

$Q$ $\frac{P(x, z; \theta)}{Q(z)}$

P (x, z; θ) = P (z | x; θ) P (x; θ)

$P(x, z ; \theta) = P(z | x; \theta) P(x; \theta)$

das macht unsere Fraktion

\frac{P (z | x; θ) P (x; θ)}{P (z | x; θ)} = P (x; θ)

$\frac{P(z | x; \theta) P(x; \theta)}{P(z|x;\theta)} = P(x; \theta)$

$P(x; \theta)$ $z$ $C$

\log (\sum_{z} Q (z) C) \geq \sum_{z} Q (z) \log (C)

$\log{\big( \sum_z{Q(z)C} \big)} \ge \sum_z{Q(z)\log(C)}$

$Q(z)$

$g_t$

Die Antwort in den von mir verlinkten Anmerkungen unterscheidet sich geringfügig von der in den ergänzenden Anmerkungen, unterscheidet sich jedoch nur durch eine Konstante, und wir maximieren sie, damit sie keine Konsequenz hat. Der in den Notizen (mit Ableitung) ist:

g_{t} (θ) = \log (P (x | θ^{(t)})) + \sum_{z} P (z | x; θ^{(t)}) \log (\frac{P (x | z; θ) P (z | θ)}{P (z | x; θ^{(t)}) P (x | θ^{(t)})})

$g_t(\theta) = \log(P(x|\theta^{(t)})) + \sum_z{P(z|x;\theta^{(t)})\log{\big( \frac{P(x|z;\theta)P(z|\theta)}{P(z|x;\theta^{(t)})P(x|\theta^{(t)})} \big)}}$

Über diese komplexe Formel wird in den ergänzenden Anmerkungen nicht ausführlich gesprochen, wahrscheinlich weil viele dieser Begriffe Konstanten sind, die weggeworfen werden, wenn wir maximieren. Wenn Sie daran interessiert sind, wie wir überhaupt hierher kommen, empfehle ich die von mir verlinkten Notizen.

$g_t(\theta^{(t)})$ $g_t(\theta^{(t)}) = \log P(x|\theta^{(t)})$

— Mike
quelle