Das Ziel von K-Means ist es, die Varianz innerhalb des Clusters zu verringern. Da die Schwerpunkte als Mittelwert eines Clusters berechnet werden, muss der euklidische Abstand verwendet werden, um ordnungsgemäß zu konvergieren. Wenn Sie also unbedingt K-Means verwenden möchten, müssen Sie sicherstellen, dass Ihre Daten gut damit funktionieren.
Darstellung
K-Means und Clustering im Allgemeinen versuchen, die Daten in sinnvolle Gruppen zu unterteilen, indem sichergestellt wird, dass Instanzen in denselben Clustern einander ähnlich sind. Daher benötigen Sie eine gute Möglichkeit, Ihre Daten darzustellen, damit Sie auf einfache Weise ein aussagekräftiges Ähnlichkeitsmaß berechnen können.
Die One-Hot-Codierung für kategoriale Variablen ist eine gute Idee, wenn die Kategorien gleich weit voneinander entfernt sind. Wenn Sie beispielsweise die Farben Hellblau, Dunkelblau und Gelb verwenden, erzielen Sie mit der One-Hot-Codierung möglicherweise nicht die besten Ergebnisse, da Dunkelblau und Hellblau wahrscheinlich näher beieinander liegen als bei Gelb.
Falls der kategoriale Wert nicht "äquidistant" ist und bestellt werden kann, können Sie den Kategorien auch einen numerischen Wert geben. Beispielsweise können Kinder, Jugendliche und Erwachsene möglicherweise als 0, 1 und 2 dargestellt werden. Dies ist sinnvoll, da ein Teenager dem Kind näher ist als ein Erwachsener.
K-Medoids
Ein allgemeinerer Ansatz für K-Means ist K-Medoids. K-Medoids funktioniert ähnlich wie K-Means, aber der Hauptunterschied besteht darin, dass der Schwerpunkt für jeden Cluster als der Punkt definiert wird, der die Summe der Entfernungen innerhalb des Clusters verringert. Wenn Sie dies erzwingen, können Sie jede gewünschte Abstandsmessung verwenden. Daher können Sie eine eigene benutzerdefinierte Messung erstellen, die berücksichtigt, welche Kategorien nah sein sollten oder nicht.