Mein Ziel ist es zu sehen, dass der K-Mittelwert-Algorithmus tatsächlich ein Erwartungsmaximierungsalgorithmus für Gaußsche Gemische ist, bei dem alle Komponenten eine Kovarianz im Grenzwert als .
Angenommen , wir haben einen Datensatz von Beobachtungen von Zufallsvariablen .
Die Zielfunktion für M-Mittel ist gegeben durch:
(Wenn der Datenpunkt dem Cluster k zugewiesen ist , ist und für k).
Der K-Mittelwert-Algorithmus minimiert durch Iteration bis zur Konvergenz, was zwei aufeinanderfolgende Schritte umfasst:
(E) Minimieren in Bezug auf hält alle fest
(M) minimiert in Bezug auf hält alle fest
Im Allgemeinen maximiert der EM-Algorithmus, indem er alle beobachteten Daten mit , alle latenten Variablen mit und alle Modellparameter mit , die posteriore Verteilung durch Iteration bis zur Konvergenz von zwei abwechselnden Schritten:
(E. ) Berechnen Sie die Erwartung
(M) find
Betrachten Sie nun die Gaußsche Mischungsverteilung: Einführung einer latenten dimensionalen binären Zufallsvariablen durch , wir sehen, dass: Also
Wenn jetzt alle Gaußschen im Mischungsmodell die Kovarianz , kann unter Berücksichtigung der Grenze leicht zeigen, dass wobei as ist oben definiert. In der Tat aktualisiert der (E) -Schritt wie im K-Mittelwert-Algorithmus.
Ich habe jedoch Probleme mit der Maximierung von in diesem Zusammenhang, wie für .
Stimmt es, dass bis zu einer konstanten und skalaren Multiplikation:
?
Vielleicht fehlt mir etwas. Irgendein Rat?