Warum wird der Erwartungsmaximierungsalgorithmus verwendet?

22

Nach dem, was ich noch nicht weiß, kann der EM-Algorithmus verwendet werden, um die maximale Wahrscheinlichkeit zu ermitteln, wenn die partiellen Ableitungen in Bezug auf die Parameter der Wahrscheinlichkeit auf Null gesetzt werden. Dies ergibt einen Satz von Gleichungen, die nicht analytisch gelöst werden können. Aber wird der EM-Algorithmus benötigt, anstatt eine numerische Technik zu verwenden, um zu versuchen, ein Maximum der Wahrscheinlichkeit in Bezug auf die Beschränkung des genannten Gleichungssystems zu finden?

expectation-maximization

— user782220
quelle

20

Die Frage ist berechtigt und ich hatte die gleiche Verwirrung, als ich den EM-Algorithmus zum ersten Mal lernte.

Im Allgemeinen definiert der EM-Algorithmus einen iterativen Prozess, der es ermöglicht, die Wahrscheinlichkeitsfunktion eines parametrischen Modells zu maximieren, wenn einige Variablen des Modells "latent" oder unbekannt sind (oder als solche behandelt werden).

Theoretisch können Sie für denselben Zweck einen Minimierungsalgorithmus verwenden, um das Maximum der Wahrscheinlichkeitsfunktion für alle Parameter numerisch zu ermitteln. In der Realität wäre diese Minimierung jedoch:

viel rechenintensiver
weniger robust

Eine sehr häufige Anwendung der EM-Methode ist die Anpassung eines Mischungsmodells. In diesem Fall wird das Problem erheblich vereinfacht, wenn man die Variable betrachtet, die jede Stichprobe einer der Komponenten als "latente" Variablen zuweist.

Schauen wir uns ein Beispiel an. Wir haben N Proben aus einer Mischung von 2 Normalverteilungen extrahiert. Um die Parameter ohne EM zu finden, sollten wir minimieren: $s = \{s_i\}$

- Log L (x, θ) = - Log [{ein}_{1} \exp (\frac{(x - μ_{1})^{2}}{2 σ_{1}^{2}}) + {ein}_{2} \exp (\frac{(x - μ_{2})^{2}}{2 σ_{2}^{2}})]

$-\log \mathcal{L}(x,\theta) = -\log\Big[ a_1 \exp\Big( \frac{(x-\mu_1)^2}{2\sigma_1^2}\Big) + a_2 \exp\Big(\frac{(x-\mu_2)^2}{2\sigma_2^2}\Big) \Big]$

Im Gegenteil, unter Verwendung des EM-Algorithmus "ordnen" wir zuerst jede Probe einer Komponente zu ( E-Schritt ) und passen dann jede Komponente einzeln an (oder maximieren die Wahrscheinlichkeit ) ( M-Schritt ). In diesem Beispiel ist der M-Schritt einfach ein gewichteter Mittelwert, um und . Das Durchlaufen dieser beiden Schritte ist eine einfachere und robustere Methode zum Minimieren von . $\mu_k$ $\sigma_k$ $-\log \mathcal{L}(x,\theta)$

— user2304916
quelle

12

EM wird nicht benötigt, anstatt eine numerische Methode zu verwenden, da EM auch eine numerische Methode ist. Es ist also kein Ersatz für Newton-Raphson. EM ist für den speziellen Fall vorgesehen, dass in Ihrer Datenmatrix Werte fehlen. Man betrachte eine Stichprobe der bedingten Dichte . Dann ist die log-Wahrscheinlichkeit dafür Nehmen wir nun an, Sie haben keinen vollständigen Datensatz, so dass aus beobachteten Daten besteht und fehlende (oder latente) Variablen , so dass . Dann ist die Log-Wahrscheinlichkeit für die beobachteten Daten $X = (X_{1},...,X_{n})$ $f_{X|\Theta}(x|\theta)$

l (θ; X) = l O G f_{X | Θ} (X | θ)

$l(\theta;X) = log f_{X|\Theta}(X|\theta)$

X

$X$

Y

$Y$

Z

$Z$

X = (Y, Z)

$X=(Y,Z)$

l_{O b s} (θ, Y.) = l O G \int f_{X | Θ} (Y., z | θ) ν_{z} (d z)

$l_{obs}(\theta,Y)=log \int f_{X|\Theta}(Y,z|\theta)\nu_{z}(dz)$ Im Allgemeinen können Sie dieses Integral nicht direkt berechnen und Sie werden nicht erhalten eine geschlossene Lösung für . Zu diesem Zweck verwenden Sie die EM-Methode. Es gibt zwei Schritte, die mal durchlaufen werden . In diesem Schritt sind dies die Erwartungsschritte, in denen Sie wobei die Schätzung von im -Schritt ist. Berechnen Sie dann den Maximierungsschritt, in dem Sie bezüglich und set

l_{o b s} (θ, Y)

$l_{obs}(\theta,Y)$

i

$i$

(i + 1)^{t h}

$(i + 1)^{th}$

Q. (θ | θ^{(ich)}) = E_{θ^{(ich)}} [l (θ; X | Y.]

$Q(\theta|\theta^{(i)}) = E_{\theta^{(i)}}[l(\theta;X|Y]$

θ^{(i)}

$\theta^{(i)}$

Θ

$\Theta$

i^{t h}

$i^{th}$

Q (θ | θ^{(i)})

$Q(\theta|\theta^{(i)})$

θ

$\theta$

θ^{(i + 1)} = m a x Q (θ | θ^{i})

$\theta^{(i+1)} = max Q(\theta|\theta^{i})$ . Anschließend wiederholen Sie diese Schritte, bis die Methode zu einem Wert konvergiert, der Ihre Schätzung sein wird.

Wenn Sie weitere Informationen zu der Methode, ihren Eigenschaften, Beweisen oder Anwendungen benötigen, schauen Sie sich einfach den entsprechenden Wiki- Artikel an.

— Andy
quelle

1

+1 ... EM gilt jedoch nicht nur für den Fall fehlender Werte.

— Glen_b

@Andy: Selbst unter Berücksichtigung des Falls fehlender Daten verstehe ich immer noch nicht, warum es nicht funktioniert, generische numerische Methoden zu verwenden, um einen Punkt zu finden, an dem die partiellen Ableitungen Null sind.

— user782220

Danke Glen, ich wusste es nur im Zusammenhang mit fehlenden Werten / latenten Variablen. @ user782220: Wenn Sie keine geschlossene Lösung der Log-Likelihood-Ableitung haben können, wird Ihr Parameter nicht identifiziert, wenn Sie die Ableitung auf Null setzen. Deshalb verwenden Sie in diesem Fall numerische Methoden. Eine Erklärung und ein Beispiel finden Sie in der Vorlesung hier: people.stat.sfu.ca/~raltman/stat402/402L5.pdf

— Andy

1

EM wird verwendet, weil es oft unmöglich oder unmöglich ist, die Parameter eines Modells direkt zu berechnen, um die Wahrscheinlichkeit eines Datensatzes bei diesem Modell zu maximieren.

— TheGrimmScientist
quelle