Warum ist die Optimierung einer Gaußschen Mischung direkt rechnerisch schwierig?


18

Betrachten Sie die logarithmische Wahrscheinlichkeit einer Mischung von Gaußschen:

l(Sn;θ)=t=1nlogf(x(t)|θ)=t=1nlog{i=1kpif(x(t)|μ(i),σi2)}

Ich habe mich gefragt, warum es rechenintensiv ist, diese Gleichung direkt zu maximieren. Ich suchte entweder nach einer klaren, soliden Vorstellung, warum es offensichtlich sein sollte, dass es schwierig ist, oder nach einer genaueren Erklärung, warum es schwierig ist. Ist dieses Problem NP-komplett oder wissen wir noch nicht, wie wir es lösen sollen? Verwenden wir deshalb den EM - Algorithmus ( Expectation-Maximization )?


Notation:

Sn = Trainingsdaten.

x(t) = Datenpunkt.

θ = der Parametersatz, der den Gauß'schen Wert, dessen Mittelwert, die Standardabweichung und die Wahrscheinlichkeit angibt, aus jedem Cluster / jeder Klasse / jedem Gauß'schen Wert einen Punkt zu erzeugen.

pi = die Wahrscheinlichkeit, einen Punkt aus Cluster / Klasse / Gaußscher i zu erzeugen.

Antworten:


14

Erstens ist GMM ein spezieller Algorithmus für das Clustering, bei dem Sie versuchen, die optimale Kennzeichnung Ihrer Beobachtungen zu finden. Wenn Sie über mögliche Klassen verfügen , bedeutet dies, dass Ihre Trainingsdaten über mögliche Beschriftungen verfügen. Dies wird bereits für moderate Werte von und groß .k k n k nnkknkn

Zweitens ist die Funktion, die Sie zu minimieren versuchen, nicht konvex und macht es zusammen mit der Größe Ihres Problems sehr schwierig. Ich weiß nur, dass k-means (GMM kann als weiche Version von kmeans angesehen werden) NP-hart ist. Mir ist jedoch nicht bekannt, ob dies auch für GMM nachgewiesen wurde.

Um festzustellen, dass das Problem nicht konvex ist, betrachten Sie den eindimensionalen Fall: und prüfen Sie, ob Sie d 2 L nicht garantieren können

L=log(e(x/σ1)2+e(x/σ2)2)
für alle x.d2Ldx2>0

Ein nicht konvexes Problem bedeutet, dass Sie in lokalen Minima stecken bleiben können. Im Allgemeinen haben Sie nicht die starken Garantien, die Sie für die konvexe Optimierung haben, und die Suche nach einer Lösung ist auch viel schwieriger.


3
Zum zweiten Punkt: k-means kann als Sonderfall von GVM angesehen werden (genauer ein Grenzfall, in dem die Varianzen auf Null gesetzt werden). Wenn wir k-means auf die Anpassung eines GMM reduzieren können, muss letzteres ebenfalls ein NP-hartes Problem sein.
Lucas

1
@Lucas: Hier ist ein Cross Validated Link zu Ihrer Bemerkung.
Xi'an

7

Lassen Sie mich zusätzlich zu Juampas Punkten auf diese Schwierigkeiten hinweisen:

  • Die Funktion unbeschränkt ist , so dass das wahre Maximum + und entspricht μ ( i ) = x 1 (zum Beispiel) und σ i = 0 . Ein echter Maximierer sollte daher mit dieser Lösung enden, die für Schätzzwecke nicht nützlich ist.l(θ|Sn)+μ^(i)=x1σ^i=0
  • Auch ohne die Berücksichtigung Bedingungen der Zersetzung des Produktes von Summen als eine Summe von Produkten in l ( θ | S n ) , um die Funktion in maximierte θ ist hoch multimodalen (zusätzlich zu dem nicht-konvex) eine Herausforderung für numerische Methoden. EM erkennt die Schwierigkeit an, indem es zu einem lokalen Modus oder Sattelpunkt konvergiert und mehrere Läufe erfordert. Wie auf gezeigtknl(θ|Sn)θdas Bild unten

aus meinem buch genommen .

Eine zusätzliche Bemerkung: Ohne den EM-Algorithmus aufzurufen, kann man einen Standard-Optimierungsalgorithmus (wie Newton-Raphson) jeweils für einen Parameter verwenden, dh iterieren

  • θ1=argmaxθ1l(θ|Sn)
  • θ2=argmaxθ2l(θ1,θ1|Sn)
  • ...
  • θv=argmaxθvl(θv,θv|Sn)

vl(θ|Sn)


OK, L ist nicht begrenzt, wenn die Varianz 0 ist. Wenn wir sie jedoch von den möglichen Parametern ausschließen (also alle Varianz> 0 annehmen), sollte L nicht so hoch sein, wenn eine infinitesimal gewählte Varianz vorliegt (wegen anderer Punkte). Habe ich recht? Dann wäre für diesen möglichen Parametersatz L begrenzt, und dies impliziert, dass der EM-Algorithmus konvergiert (wobei die begrenzte Sequenz zunimmt).
Ahstat

@ahstat: Die Annahme, dass die Varianzen streng positiv sind, hindert die EM nicht daran, zu einer entarteten Lösung zu konvergieren, wenn sie eng genug gestartet wird.
Xi'an
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.