Warum enthält der Name EM-Algorithmus ein E.

Ich verstehe, wo der E-Schritt im Algorithmus stattfindet (wie im Abschnitt "Mathematik" unten erläutert). Meiner Meinung nach ist der Schlüsseleinfallsreichtum des Algorithmus die Verwendung der Jensen-Ungleichung, um eine Untergrenze für die Log-Wahrscheinlichkeit zu erstellen. In diesem Sinne Expectationwird einfach genommen, um die logarithmische Wahrscheinlichkeit neu zu formulieren, um in Jensens Ungleichung zu passen (dh für die konkave Funktion.) $E(f(x)) < f(E(x))$

Gibt es einen Grund, warum der E-Schritt so genannt wird? Gibt es eine Bedeutung für das, was wir erwarten (dh ? Ich habe das Gefühl, dass mir eine Intuition fehlt, warum die Erwartung so zentral ist, anstatt einfach nur ein Nebeneffekt der Erwartung zu sein Verwendung von Jensens Ungleichung. $p(x_i, z_i| \theta)$

EDIT: Ein Tutorial sagt:

Der Name 'E-Schritt' kommt von der Tatsache, dass man normalerweise nicht die Wahrscheinlichkeitsverteilung über Abschlüsse explizit bilden muss, sondern nur 'erwartete' ausreichende Statistiken über diese Abschlüsse berechnen muss.

Was bedeutet es "man muss die Wahrscheinlichkeitsverteilung über Vervollständigungen normalerweise nicht explizit bilden"? Wie würde diese Wahrscheinlichkeitsverteilung aussehen?

Anhang: E-Schritt im EM-Algorithmus

\begin{aligned} l l & = \sum_{i} \log p (x_{i}; θ) & definition of log likelihood \\ = \sum_{i} \log \sum_{z_{i}} p (x_{i}, z_{i}; θ) & augment with latent variables z \\ = \sum_{i} \log \sum_{z_{i}} Q_{i} (z_{i}) \frac{p (x_{i}, z_{i}; θ)}{Q_{i} (z_{i})} & Q_{i} is a distribution for z_{i} \\ = \sum_{i} \log E_{z_{i}} [\frac{p (x_{i}, z_{i}; θ)}{Q_{i} (z_{i})}] & taking expectations - hence the E in EM \\ \geq \sum E_{z_{i}} [\log \frac{p (x_{i}, z_{i}; θ)}{Q_{i} (z_{i})}] & Using Jensen's rule for \log which is concave \\ \geq \sum_{i} \sum_{z_{i}} Q_{i} (z_{i}) \log \frac{p (x_{i}, z_{i}; θ)}{Q_{i} (z_{i})} & Q function to maximize \end{aligned}

$\begin{align} ll &= \sum_i{\log p(x_i; \theta)} && \text{definition of log likelihood} \\ &= \sum_i \log \sum_{z_i}{p(x_i, z_i; \theta)} && \text{augment with latent variables $z$} \\ &= \sum_i \log \sum_{z_i} Q_i(z_i) \frac{p(x_i, z_i; \theta)}{Q_i(z_i)} && \text{$Q_i$ is a distribution for $z_i$} \\ &= \sum_i \log E_{z_i}[\frac{p(x_i, z_i; \theta)}{Q_i(z_i)}] && \text{taking expectations - hence the E in EM} \\ &\geq \sum E_{z_i}[\log \frac{p(x_i, z_i; \theta)}{Q_i(z_i)}] && \text{Using Jensen's rule for $\log$ which is concave} \\ &\geq \sum_i \sum_{z_i} Q_i(z_i) \log \frac{p(x_i, z_i; \theta)}{Q_i(z_i)} && \text{Q function to maximize} \end{align}$

— Heisenberg
quelle

Mir ist nicht klar, was Sie fragen, aber ich habe immer angenommen, dass die Relevanz für die Benennung des E-Schritts darin besteht, dass Sie in gewisser Weise das fehlende "ausfüllen" oder "unterstellen", indem Sie die Erwartung annehmen. Zugegeben, das ist nicht genau das, was passiert, weil Sie was nicht dasselbe ist, als etwas für das anzuschließen fehlende Werte, aber operativ macht man oft so etwas. Wenn wir eine Datenerweiterung durchführen würden - was EM in vielerlei Hinsicht ähnlich ist.

z

$z$

E_{θ} [\log p (x, Z; θ^{'}) ∣ X = x]

$E_\theta [\log p(x, Z; \theta') \mid X = x]$

Z

$Z$

— Kerl

Ja, das ist die Art von Diskussion, die ich führen möchte. .? Also , wenn Sie impute z sagen nach Erwartung unter“Die Erwartung dessen , was auch meinen Sie statt ?

E_{z}

$E_z$

E_{θ}

$E_\theta$

— Heisen

Meine Erziehung bestand immer darin, das mit dem Parameter zu indizieren, der das Wahrscheinlichkeitsmaß indiziert, auf das sich die Erwartung bezieht. In CS machen sie es so, wie Sie es vorschlagen. Ich integriere und konditioniere auf gegen ein durch indiziertes Maß .

E

$E$

Z

$Z$

X

$X$

θ

$\theta$

— Kerl

Bei der Anpassung von Gaußschen Gemischen hat der E-Schritt beispielsweise die fehlenden Klassenindikatoren unterstellt. Dies geschieht jedoch auf unscharfe Weise, indem die Verantwortlichkeiten für jede Beobachtung berechnet werden.

— Kerl

Antworten:

Erwartungen sind für den EM-Algorithmus von zentraler Bedeutung. wird die mit den Daten verbundene Wahrscheinlichkeit als Erwartung wobei die Erwartung in Bezug auf die Randverteilung des latenten Vektors . $(x_1,\ldots,x_n)$

\begin{aligned} p (x_{1}, \dots, x_{n}; θ) & = \int_{Z^{n}} p (x_{1}, \dots, x_{n}, z_{1}, \dots, z_{n}; θ) d z \\ = \int_{Z^{n}} p (x_{1}, \dots, x_{n} | z_{1}, \dots, z_{n}, θ) p (z_{1}, \dots, z_{n}; θ) d z \\ = E_{θ} [p (x_{1}, \dots, x_{n} | z_{1}, \dots, z_{n}, θ)] \end{aligned}

$\begin{align*} p(x_1,\ldots,x_n;\theta) &= \int_\mathfrak{{Z}^n} p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}_n;\theta)\,\text{d}\mathbf{\mathfrak{z}}\\ &=\int_\mathfrak{{Z}^n} p(x_1,\ldots,x_n|\mathfrak{z}_1,\ldots,\mathfrak{z}_n,\theta)p(\mathfrak{z}_1,\ldots,\mathfrak{z}_n;\theta)\,\text{d}\mathbf{\mathfrak{z}}\\ &=\mathbb{E}_\theta\left[ p(x_1,\ldots,x_n|\mathfrak{z}_1,\ldots,\mathfrak{z}_n,\theta)\right] \end{align*}$

(z_{1}, \dots, z_{n})

$(\mathfrak{z}_1,\ldots,\mathfrak{z}_n)$

Die Intuition hinter EM basiert ebenfalls auf einer Erwartung. Da nicht direkt optimiert werden kann, während kann, hängt aber von den nicht beobachteten . Die Idee ist, stattdessen die erwartete vollständige Log-Wahrscheinlichkeit zu maximieren Ausnahme, dass diese Erwartung auch von einem Wert von abhängt , der beispielsweise als wird, daher die Funktion zum Maximieren (in ) im M-Schritt: $\log p(x_1,\ldots,x_n;\theta)$ $\log p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}_n;\theta)$ $\mathfrak{z}_i$

E [\log p (x_{1}, \dots, x_{n}, z_{1}, \dots, z_{n}; θ) | x_{1}, \dots, x_{n}]

$\mathbb{E}\left[ \log p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}_n;\theta) \big| x_1,\ldots,x_n \right]$

θ

$\theta$

θ_{0}

$\theta_0$

θ

$\theta$

Q (θ_{0}, θ) = E_{θ_{0}} [\log p (x_{1}, \dots, x_{n}, z_{1}, \dots, z_{n}; θ) | x_{1}, \dots, x_{n}]

$Q(\theta_0,\theta)=\mathbb{E}_{\theta_0}\left[ \log p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}_n;\theta) \big| x_1,\ldots,x_n \right]$ Jensens Ungleichung ist nur eine Rechtfertigung für die Zunahme der beobachteten Wahrscheinlichkeit bei jedem M-Schritt.

— Xi'an
quelle

Danke für die Erklärung. Da sich unsere posteriore Verteilung für die latenten Vektoren bei jedem Schritt ändert, ändert sich bei jedem Schritt auch? Wenn ja, ist dieses Bild etwas verwirrend, da es eine feste rote Kurve gibt, die , während sich bei jedem Schritt "ändert", da wir über unseren aktuellen Glauben an durchschnittlich sind die latenten Vektoren in diesem Schritt.

E_{θ} [p (x_{1}, \dots, x_{n}, z, \dots, z, θ)]

$E_\theta[p(x_1,\dots,x_n, \mathfrak{z}, \dots, \mathfrak{z}, \theta)]$

p (x; θ)

$p(x;\theta)$

p (x; θ)

$p(x;\theta)$

z

$z$

— Heisenberg

Entschuldigung, ich verstehe die Frage nicht: Bei jedem EM-Schritt wird der Wert von ändert und erhöht sich. Dies bedeutet nicht, dass sich die Wahrscheinlichkeitsfunktion selbst ändert.

E_{θ} [p (x_{1}, \dots, x_{n} | z_{1}, \dots, z_{n}, θ)]

$\mathbb{E}_\theta\left[ p(x_1,\ldots,x_n|\mathfrak{z}_1,\ldots,\mathfrak{z}_n,\theta)\right]$

— Xi'an

Ist nicht ? Wenn sich die RHS gemäß unserer hinteren Überzeugung über den latenten Vektor ändert, ändert sich auch die LHS?

p (x_{1}, \dots, x_{n}; θ) = E_{θ} [p (x_{1}, \dots, x_{n} | z_{1}, \dots, z_{n}, θ)]

$p(x_1,\ldots,x_n;\theta) = \mathbb{E}_\theta\left[ p(x_1,\ldots,x_n|\mathfrak{z}_1,\ldots,\mathfrak{z}_n,\theta)\right]$

— Heisenberg

Diese Identität ist in meiner Antwort. Beide Seiten nehmen unterschiedliche Werte an, wenn variiert. In dieser Gleichung gibt es jedoch keine Vorstellung von posteriorem Glauben, da (a) festgelegt ist und (b) die 's marginal betrachtet werden.

θ

$\theta$

θ

$\theta$

z_{i}

$\mathfrak{z}_i$

— Xi'an

Bei jeder Iteration der E-Schritt , um das Integral zu berechnenDaher die Zielfunktion, Änderungen bei jeder Iteration zu maximieren . Dies sagt nichts über die ursprüngliche Zielwahrscheinlichkeit was nur von einem einzelnen abhängt .

t

$t$

p (z | x, θ_{t})

$p(\mathfrak{z}|x, \theta_t)$

Q. (θ_{t}, θ) = {E.}_{θ_{t}} [Log p (x_{1}, \dots, x_{n}, z_{1}, \dots, z_{n};; θ) | x_{1}, \dots, x_{n}]] .

$Q(\theta_t,\theta)=\mathbb{E}_{\theta_t}\left[ \log p(x_1,\ldots,x_n,\mathfrak{z}_1,\ldots,\mathfrak{z}_n;\theta) \big| x_1,\ldots,x_n \right].$

t

$t$

p (x_{1}, \dots, x_{n}; θ) = E_{θ} [p (x_{1}, \dots, x_{n} | z_{1}, \dots, z_{n}, θ)]

$p(x_1,\ldots,x_n;\theta) = \mathbb{E}_\theta\left[ p(x_1,\ldots,x_n|\mathfrak{z}_1,\ldots,\mathfrak{z}_n,\theta)\right]$

θ

$\theta$

— Xi'an

Xi'ans Antwort ist sehr gut, nur eine Erweiterung bezüglich der Bearbeitung.

Der Name 'E-Schritt' kommt von der Tatsache, dass man normalerweise nicht die Wahrscheinlichkeitsverteilung über Abschlüsse explizit bilden muss, sondern nur 'erwartete' ausreichende Statistiken über diese Abschlüsse berechnen muss.

Da der Wert von nicht beobachtet wird, schätzen wir eine Verteilung für jeden Datenpunkt ab den nicht beobachteten Daten. Die Q-Funktion ist die Summe der erwarteten Log-Wahrscheinlichkeiten über $z$ $q_x(z)$ $x$ completions $q_x(z)$

Q. (θ) = \sum_{x} {E.}_{q_{x}} [Log p (x, z | θ)]]

$Q(\theta)=\sum_x E_{q_x}[\log p(x,z|\theta)]$

Das erwähnte probability distribution over completionssollte sich auf beziehen . Für einige Verteilungen (insbesondere die Exponentialfamilie, da die Wahrscheinlichkeit in ihrer logarithmischen Form vorliegt) müssen wir nur die erwartete (anstelle der erwarteten Wahrscheinlichkeit) kennen, um zu berechnen und zu maximieren . $p(x,z|\theta)$ sufficient statistics $Q(\theta)$

Es gibt eine sehr gute Einführung in Kapitel 19.2 der probabilistischen grafischen Modelle.

— dontloo
quelle