Ich habe einige Erklärungen zum EM-Algorithmus gelesen (z. B. aus Bishops Mustererkennung und maschinellem Lernen sowie aus dem ersten Kurs von Roger und Gerolami über maschinelles Lernen). Die Ableitung von EM ist in Ordnung, ich verstehe es. Ich verstehe auch, warum der Algorithmus etwas überdeckt: Bei jedem Schritt verbessern wir das Ergebnis und die Wahrscheinlichkeit wird durch 1,0 begrenzt. Wenn wir also eine einfache Tatsache verwenden (wenn eine Funktion zunimmt und begrenzt wird, konvergiert sie), wissen wir, dass der Algorithmus gegen konvergiert eine Lösung.
Woher wissen wir jedoch, dass es sich um ein lokales Minimum handelt? Bei jedem Schritt berücksichtigen wir nur eine Koordinate (entweder latente Variable oder Parameter), sodass wir möglicherweise etwas übersehen, so dass das lokale Minimum das gleichzeitige Bewegen um beide Koordinaten erfordert.
Dies ist meines Erachtens ein ähnliches Problem wie das der allgemeinen Klasse von Hill Climbing-Algorithmen, für die EM ein Beispiel ist. Für einen allgemeinen Hill Climbing-Algorithmus haben wir dieses Problem für die Funktion f (x, y) = x * y. Wenn wir von (0, 0) beginnen, können wir uns nur unter gleichzeitiger Berücksichtigung beider Richtungen von 0 nach oben bewegen.