Warum ist die Maximierung der Erwartungen für Mischmodelle wichtig?


15

Es gibt viele Literaturstellen, in denen die Expectation Maximization-Methode für Mischmodelle (Mischung aus Gauß-Modell, Hidden-Markov-Modell usw.) im Vordergrund steht.

Warum ist EM wichtig? EM ist nur eine Möglichkeit zur Optimierung und wird nicht häufig als gradientenbasierte Methode (Gradient Decent oder Newton's / Quasi-Newton-Methode) oder als andere gradientenfreie Methode verwendet, die HIER erörtert wird . Darüber hinaus hat EM immer noch ein lokales Minima-Problem.

Liegt es daran, dass der Prozess intuitiv ist und sich leicht in Code verwandeln lässt? Oder welche anderen Gründe?

Antworten:


14

Grundsätzlich können sowohl EM- als auch Standardoptimierungsansätze zum Anpassen von Gemischverteilungen verwendet werden. Wie EM konvergieren konvexe Optimierungslöser zu einem lokalen Optimum. Es gibt jedoch eine Vielzahl von Optimierungsalgorithmen, um bei Vorhandensein mehrerer lokaler Optima nach besseren Lösungen zu suchen. Soweit mir bekannt ist, hängt der Algorithmus mit der besten Konvergenzgeschwindigkeit vom Problem ab.

Ein Vorteil von EM ist, dass es auf natürliche Weise bei jeder Iteration gültige Parameter für die Gemischverteilung erzeugt. Im Gegensatz dazu müssten für Standard-Optimierungsalgorithmen Einschränkungen auferlegt werden. Angenommen, Sie passen ein Gaußsches Mischungsmodell an. Ein nichtlinearer Standard-Programmieransatz würde erfordern, dass die Beschränkung der Kovarianzmatrizen positiv semidefinit und die Beschränkung der Gewichte der Mischungskomponenten nichtnegativ sind und sich zu eins summieren.

Um eine gute Leistung bei hochdimensionalen Problemen zu erzielen, muss ein nichtlinearer Programmierlöser normalerweise den Gradienten ausnutzen. Sie müssen also entweder den Gradienten ableiten oder ihn mit automatischer Differenzierung berechnen. Farbverläufe werden auch für Abhängigkeitsfunktionen benötigt, wenn sie keine Standardform haben. Newtons Methode und verwandte Ansätze (zB Trust-Region-Methoden) benötigen ebenfalls das Hessische. Wenn der Gradient nicht verfügbar ist, können endliche Differenzierungsmethoden oder ableitungsfreie Methoden verwendet werden. Die Leistung lässt sich jedoch mit zunehmender Anzahl von Parametern schlecht skalieren. Im Gegensatz dazu benötigt EM den Gradienten nicht.

EM ist konzeptionell intuitiv, was eine große Tugend ist. Dies gilt häufig auch für Standardoptimierungsansätze. Es gibt viele Implementierungsdetails, aber das Gesamtkonzept ist einfach. Häufig können Standard-Optimierungslöser verwendet werden, die diese Details unter der Haube abstrahieren. In diesen Fällen muss der Benutzer lediglich die Zielfunktion, die Einschränkungen und die Verläufe angeben und über ausreichende Kenntnisse verfügen, um einen für das Problem geeigneten Löser auszuwählen. Spezialkenntnisse sind jedoch unbedingt erforderlich, wenn der Benutzer über Details des Optimierungsalgorithmus auf niedriger Ebene nachdenken oder diese implementieren muss.

Ein weiterer Vorteil des EM-Algorithmus besteht darin, dass er in Fällen verwendet werden kann, in denen einige Datenwerte fehlen.

Auch von Interesse (einschließlich der Kommentare):


ichpich=1qichRpich=exp(qich)jexp(qj)

1
CUC=UTUC

U0

Richtig, richtig, cholesky Zersetzung. Viel besser.
user20160

1
+1 tolle Antwort! Könnten Sie mehr erklären über "es erzeugt natürlich gültige Parameter für die Mischungsverteilung bei jeder Iteration"? Für andere Methoden haben wir noch Entscheidungsvariablenwerte für jede Iteration, richtig?
Haitao Du

2

Ich denke, die Antwort von user20160 liefert eine sehr gute Erklärung. Der wichtigste Grund, warum gradientenbasierte Methoden hier nicht geeignet sind, ist die Einschränkung, dass Kovarianzmatrizen positiv und semidefinit sind und Mischungskoeffizienten nichtnegativ und summieren sich zu eins.

Ich möchte nur darauf hinweisen, dass, wenn wir die Kovarianzmatrizen auf eine Diagonale beschränken, diese beiden Einschränkungen leicht ausgedrückt werden können.

Σ=[σ12σN2]
ϕk=epk/Kepich

Darüber hinaus können wir auf diese Weise die wahre Wahrscheinlichkeit anstelle der unteren Variationsgrenze (ELBO) direkt optimieren, sodass keine latenten Variablen mehr erforderlich sind.

Selbst in solchen Fällen erweist sich EM jedoch oft als ein besserer Algorithmus als ein anständiger Gradient.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.