Die Arbeit, die ich in Bezug auf Erwartungsmaximierung als klarstellend empfand, ist das Bayes'sche K-Mittel als "Maximierungs-Erwartungs" -Algorithmus (pdf) von Welling und Kurihara.
Angenommen, wir haben ein probabilistisches Modell mit Beobachtungen, versteckten Zufallsvariablen und insgesamt Parametern. Wir erhalten einen Datensatz und sind (durch höhere Potenzen) gezwungen, .x z & thgr ; D p ( z , & thgr ; | D )p(x,z,θ)xzθDp(z,θ|D)
1. Gibbs-Probenahme
Wir können durch Abtasten approximieren . Gibbs-Abtastung ergibt durch Alternieren von:p ( z , θ | D )p(z,θ|D)p(z,θ|D)
θ∼p(θ|z,D)z∼p(z|θ,D)
2. Variationsbayes
Stattdessen können wir versuchen, eine Verteilung und erstellen und den Unterschied zu der Verteilung, die wir nach minimieren . Der Unterschied zwischen Distributionen hat einen passenden ausgefallenen Namen, die KL-Divergenz. Um zu minimieren, aktualisieren wir:q ( z ) p ( θ , z | D ) K L [ q ( θ ) q ( z ) | | p ( θ , z | D ) ]q(θ)q(z)p(θ,z|D)KL[q(θ)q(z)||p(θ,z|D)]
q(θ)∝exp(E[logp(θ,z,D)]q(z))q(z)∝exp(E[logp(θ,z,D)]q(θ))
3. Erwartung-Maximierung
Es kann als extrem angesehen werden, vollständige Wahrscheinlichkeitsverteilungen sowohl für als auch für zu finden. Warum überlegen wir uns nicht stattdessen eine Punktschätzung für eine davon und halten die andere nett und nuanciert? In EM wird der Parameter ; als derjenige festgelegt, der einer vollständigen Verteilung unwürdig ist, und auf seinen MAP-Wert (Maximum A Posteriori) .θ θ θ ∗zθθθ∗
θ∗=argmaxθE[logp(θ,z,D)]q(z)q(z)=p(z|θ∗,D)
Hier wäre eine bessere Schreibweise: Der argmax-Operator kann mehrere Werte zurückgeben. Aber lasst uns nicht picken. Im Vergleich zu Bayes-Variationen ändert sich das Ergebnis nicht, wenn by korrigiert wird , sodass dies nicht mehr erforderlich ist.log expθ∗∈argmaxlogexp
4. Maximierung-Erwartung
Es gibt keinen Grund, als verwöhntes Kind zu behandeln . Wir können auch nur verwenden Punkt schätzt für unsere verborgenen Variablen und geben den Parameter den Luxus einer vollständigen Verteilung.z * θzz∗θ
z∗=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z∗,D)
Wenn unsere versteckten Variablen Indikatorvariablen sind, haben wir plötzlich eine rechnerisch günstige Methode, um Rückschlüsse auf die Anzahl der Cluster zu ziehen. Dies ist mit anderen Worten: Modellauswahl (oder automatische Relevanzerkennung oder stellen Sie sich einen anderen Phantasienamen vor).z
5. Iterierte bedingte Modi
Natürlich ist es das Vorzeigekind der ungefähren Folgerung, Punktschätzungen sowohl für die Parameter als auch für die Beobachtungen .zθz
θ∗=argmaxθp(θ,z∗,D)z∗=argmaxzp(θ∗,z,D)
Um zu sehen, wie sich Maximization-Expectation auswirkt, kann ich den Artikel nur empfehlen. Meiner Meinung nach liegt die Stärke dieses Artikels jedoch nicht in der Anwendung auf eine Mittel-Alternative, sondern in dieser klaren und prägnanten Darstellung der Approximation.k