Antworten:
Von:
Xu L und Jordan MI (1996). Über Konvergenzeigenschaften des EM-Algorithmus für Gaußsche Gemische . Neural Computation 2: 129 & ndash; 151.
Abstrakt:
Wir zeigen, dass der EM-Schritt im Parameterraum über eine Projektionsmatrix P aus dem Gradienten erhalten wird, und wir geben einen expliziten Ausdruck für die Matrix.
Seite 2
Insbesondere zeigen wir, dass der EM-Schritt durch Vormultiplizieren des Gradienten mit einer positiven Denitmatrix erhalten werden kann. Wir geben einen expliziten Ausdruck für die Matrix ...
Seite 3
Das heißt, der EM-Algorithmus kann als Aufstiegsalgorithmus mit variablem Metrikgradienten betrachtet werden ...
In diesem Artikel werden explizite Transformationen des EM-Algorithmus in Gradientenanstieg, Newton, Quasi-Newton, beschrieben.
Aus Wikipedia
Es gibt andere Methoden, um Schätzungen der maximalen Wahrscheinlichkeit zu finden, z. B. Gradientenabnahme, konjugierter Gradient oder Variationen der Gauß-Newton-Methode. Im Gegensatz zu EM erfordern solche Verfahren typischerweise die Auswertung erster und / oder zweiter Ableitungen der Wahrscheinlichkeitsfunktion.
Nein, sie sind nicht gleichwertig. Insbesondere ist die EM-Konvergenz viel langsamer.
Wenn Sie an einer Optimierungssicht auf EM interessiert sind, werden Sie in diesem Artikel sehen, dass der EM-Algorithmus ein Sonderfall einer breiteren Klasse von Algorithmen ist (Proximalpunkt-Algorithmen).