Wie definiere ich die Anzahl der Cluster in K-means Clustering?

Gibt es eine Möglichkeit, die optimale Clusternummer zu ermitteln, oder sollte ich einfach andere Werte ausprobieren und die Fehlerraten überprüfen, um den besten Wert zu ermitteln?

clustering unsupervised-learning

— Berkay
quelle

@berkay Wie definieren Sie eine Fehlerrate für diese unbeaufsichtigte Methode? (oder meinst du die in SS?)

— chl

@chl, ich kann die Summe der Fehlerquadrate für alle Cluster oder die Gesamtgenauigkeit verwenden (in diesem Fall kenne ich die Klassenbezeichnungen.)

— Berkay

@berkay Ein einfacher Algorithmus zum Ermitteln der Anzahl der Cluster besteht darin, die durchschnittliche WSS für 20 Durchläufe von k-Mitteln auf einer zunehmenden Anzahl von Clustern (beginnend mit 2 und endend mit 9 oder 10) zu berechnen und die Lösung beizubehalten, die es gibt minimaler WSS über diesen Cluster gesetzt. Eine andere Methode ist die Gap-Statistik . Aber wenn Sie bereits Instanzen markiert haben, warum versuchen Sie dann eine unbeaufsichtigte Methode?

— Chl

@chl danke, gute Frage, wir können die Cluster je nach Merkmalen der Absichten erraten, ich analysiere die neuen Einbruchsmerkmale, Mimikry von rechtlichen Anwendungen.

— Berkay

Ich habe eine ähnliche Frage mit einem halben Dutzend Methoden (unter Verwendung von R) hier beantwortet

— Ben

Als Methode verwende ich CCC (Cubic Clustering Criteria). Ich suche, dass der CCC auf ein Maximum ansteigt, wenn ich die Anzahl der Cluster um 1 erhöhe, und beobachte dann, wann der CCC zu sinken beginnt. An diesem Punkt nehme ich die Anzahl der Cluster am (lokalen) Maximum. Dies ähnelt der Verwendung eines Geröllplots zum Auswählen der Anzahl der Hauptkomponenten.

SAS-Technischer Bericht A-108 Cubic Clustering Criterion ( pdf )

= Anzahl der Beobachtungen = Anzahl im Cluster = Anzahl der Variablen = Anzahl der Cluster = Datenmatrix = Matrix des Clusters bedeutet = Clusterindikator ( wenn obs . in Cluster , sonst 0) $n$
$n_k$ $k$
$p$
$q$
$X$ $n\times p$
$M$ $q\times p$
$Z$ $z_{ik}=1$ $i$ $k$

Angenommen, jede Variable hat den Mittelwert 0:
, $Z’Z = \text{diag}(n_1, \cdots, n_q)$ $M = (Z’Z)-1Z’X$

(Gesamt) matrix = = (zwischen Clustern) matrix = = (innerhalb von Clustern) matrix = = $SS$ $T$ $X’X$
$SS$ $B$ $M’ Z’Z M$
$SS$ $W$ $T-B$

(trace = Summe der diagonalen Elemente) $R^2 = 1 – \frac{\text{trace(W)}}{\text{trace}(T)}$

Stapeln Sie die Spalten von in eine lange Spalte. Regression auf Kronecker-Produkt von mit Identitätsmatrix Berechnen Sie für diese Regression - dasselbe $X$
$Z$ $p\times p$
$R^2$ $R^2$

Die CCC-Idee besteht darin, das Sie für eine bestimmte Menge von Clustern erhalten, mit dem zu vergleichen, das Sie erhalten würden, wenn Sie eine gleichmäßig verteilte Menge von Punkten im dimensionalen Raum gruppieren . $R^2$ $R^2$ $p$

— Ralph Winters
quelle

Neben CCC gibt es noch andere Kriterien. Schauen Sie sich die Anzahl der Cluster in einem Datensatz an , um die wichtigsten zu sehen.

— Vincent Labatut