GMM verwendet überlappende Hügel, die sich bis ins Unendliche erstrecken (aber praktisch nur für 3 Sigma zählen). Jeder Punkt erhält die Wahrscheinlichkeitswerte aller Hügel. Außerdem sind die Hügel "eiförmig" [okay, sie sind symmetrische Ellipsen ] und können unter Verwendung der vollständigen Kovarianzmatrix geneigt werden .
K-means ordnet einem einzelnen Cluster einen Punkt fest zu , sodass die Punktzahlen der anderen Cluster-Zentren ignoriert werden (implizit auf Null zurückgesetzt / egal). Die Hügel sind kugelförmige Seifenblasen. Wenn sich zwei Seifenblasen berühren, wird die Grenze zwischen ihnen zu einer flachen (Hyper-) Ebene. So wie beim Blasen eines Schaums aus vielen Seifenblasen die Blasen im Inneren nicht flach, sondern kastenförmig sind, so bilden die Grenzen zwischen vielen (Hyper-) Kugeln tatsächlich eine Voronoi-Partition des Raums. In 2D sieht dies in der Regel vage aus wie eine hexagonale Packung, denken Sie an einen Bienenstock (obwohl natürlich nicht garantiert ist, dass Voronoi-Zellen Sechsecke sind). Ein K-bedeutet Hügel ist rund und wird nicht gekippt, daher hat er weniger Darstellungskraft. Aber es ist viel schneller zu berechnen, besonders in den höheren Dimensionen.
Da K-means die euklidische Distanzmetrik verwendet, wird davon ausgegangen, dass die Dimensionen vergleichbar und gleich schwer sind. Wenn also die Dimension X Einheiten von Meilen pro Stunde hat, die von 0 bis 80 variieren, und die Dimension Y Einheiten von Pfund hat, die von 0 bis 400 variieren, und Sie Kreise in diesen XY-Raum einpassen, dann eine Dimension (und ihre Ausbreitung) wird mächtiger sein als die andere Dimension und wird die Ergebnisse überschatten. Deshalb ist es üblich die Daten bei der Verwendung von K-Mitteln normalisieren .
Sowohl GMM als auch K-means modellieren die Daten, indem sie die angegebenen Werte bestmöglich angleichen. GMM passt auf gekippte Eier und K-bedeutet passt auf ungekippte Kugeln. Die zugrunde liegenden Daten könnten jedoch beliebig geformt sein, es könnte sich um eine Spirale oder ein Picasso-Gemälde handeln, und jeder Algorithmus würde weiterhin ausgeführt und seine beste Aufnahme machen. Ob das resultierende Modell den tatsächlichen Daten ähnelt, hängt vom zugrunde liegenden physischen Prozess ab, der die Daten generiert. (Beispielsweise sind Zeitverzögerungsmessungen einseitig; passt ein Gaußscher Wert? Vielleicht.)
Rn von Datenachse / Domäne Sie zu gruppieren versuchen. Ordnungsgemäße Ganzzahlzählungen lassen sich gut auf Real abbilden. Geordnete Symbole, wie z. B. Farben in einem Spektrum, sind nicht so schön. Binäre Symbole, ehn. Ungeordnete Symbole werden überhaupt nicht auf reelle Symbole abgebildet (es sei denn, Sie verwenden seit 2000 kreative neue Mathematik).
Daher wird Ihr 8x8-Binärbild im ersten Hyperquadranten als 64-dimensionaler Hyperwürfel interpretiert. Die Algorithmen verwenden dann geometrische Analogien, um Cluster zu finden. Entfernung mit K-Mitteln zeigt sich als euklidische Entfernung im 64-dimensionalen Raum. Es ist eine Möglichkeit, es zu tun.