Gibt es eine Möglichkeit, die optimale Clusternummer zu ermitteln, oder sollte ich einfach andere Werte ausprobieren und die Fehlerraten überprüfen, um den besten Wert zu ermitteln?
R
) hier beantwortet
Gibt es eine Möglichkeit, die optimale Clusternummer zu ermitteln, oder sollte ich einfach andere Werte ausprobieren und die Fehlerraten überprüfen, um den besten Wert zu ermitteln?
R
) hier beantwortet
Antworten:
Als Methode verwende ich CCC (Cubic Clustering Criteria). Ich suche, dass der CCC auf ein Maximum ansteigt, wenn ich die Anzahl der Cluster um 1 erhöhe, und beobachte dann, wann der CCC zu sinken beginnt. An diesem Punkt nehme ich die Anzahl der Cluster am (lokalen) Maximum. Dies ähnelt der Verwendung eines Geröllplots zum Auswählen der Anzahl der Hauptkomponenten.
SAS-Technischer Bericht A-108 Cubic Clustering Criterion ( pdf )
= Anzahl der Beobachtungen n k = Anzahl im Cluster k p = Anzahl der Variablen q = Anzahl der Cluster X = n × p Datenmatrix M = q × p Matrix des Clusters bedeutet Z = Clusterindikator ( z i k = 1 wenn obs . i in Cluster k , sonst 0)
Angenommen, jede Variable hat den Mittelwert 0:
, M = ( Z ' Z ) - 1 Z ' X
(Gesamt) matrix = T = X ' X S S (zwischen Clustern) matrix = B = M ' Z ' Z M S S (innerhalb von Clustern) matrix = W = T - B
(trace = Summe der diagonalen Elemente)
Stapeln Sie die Spalten von in eine lange Spalte.
Regression auf Kronecker-Produkt von Z mit p × p- Identitätsmatrix
Berechnen Sie R 2 für diese Regression - dasselbe R 2
Die CCC-Idee besteht darin, das Sie für eine bestimmte Menge von Clustern erhalten, mit dem R 2 zu vergleichen, das Sie erhalten würden, wenn Sie eine gleichmäßig verteilte Menge von Punkten im p- dimensionalen Raum gruppieren .