Per Definition sollten km-Werte sicherstellen, dass der Cluster, dem ein Punkt zugewiesen ist, den nächsten Schwerpunkt hat. Die Wahrscheinlichkeit, im Cluster zu sein, ist also nicht genau definiert.
Wie bereits erwähnt, gibt Ihnen GMM-EM-Clustering eine Wahrscheinlichkeitsschätzung für die Zugehörigkeit zu jedem Cluster und ist eindeutig eine Option.
Wenn Sie jedoch im sphärischen Konstrukt von k-means bleiben möchten, könnten Sie wahrscheinlich eine einfachere Annahme / Formulierung verwenden, wenn Sie der Clusterbildung jedes Punktes eine "Gütebewertung" zuweisen möchten. Dies kann nützlich sein, wenn Sie eine Teilmenge der Grundgesamtheit abtasten und bestimmen möchten, wie sehr Sie dem Cluster vertrauen sollen, der jedem Punkt in der Stichprobe zugewiesen ist.
Ein einfaches "Bewertungsschema" könnte darin bestehen, zuerst den SQRT-Z-Bewertungsabstand über alle Dimensionen zu berechnen, die beim Clustering zu jedem der k Zentroide verwendet werden. Dann unter der Annahme zu für jeden k-Zentroide, könnten Sie die Punktzahl vergebend1dk
score=1di(n−1)/∑i=1k1di(n−1)
Dabei ist die Anzahl der Dimensionen, die für das Clustering verwendet werden.n
Warum dieses -te Einschalten von ? Denken Sie darüber nach, was im dreidimensionalen Raum mit Schwerkraft oder Elektromagnetismus passiert, wo sich die Intensität um den quadratischen Abstand verringert. In ähnlicher Weise erzeugt k-means sphärische Cluster in n Dimensionen. Wenn Sie also jedes der Cluster-Schwerpunkte als Punktquellen für "Energie" betrachten, löst es sich auf, wenn d um d auf die -te Potenz ansteigt . Infolgedessen ist an jedem zufälligen Punkt die Intensität der "Energie", die von einem beliebigen Clusterschwerpunkt kommt, proportional zu wobei(n−1)1d(n−1)1di(n−1)diist der Abstand zum Schwerpunkt. Sie können also diesen Gütefaktor berechnen, der zwischen 0 und 1 skaliert, und ein Gefühl dafür bekommen, wie "verwirrt" der k-Mittelwert-Algorithmus für jeden Punkt ist, basierend auf den Dimensionen und der Struktur Ihres vorliegenden Problems.