k
Zur Erleichterung der Erklärung und Klarheit würde ich das Clustering bootstrappen.
Im Allgemeinen können Sie solche neu abgetasteten Cluster verwenden, um die Stabilität Ihrer Lösung zu messen: Ändert sich diese kaum oder vollständig?
Auch wenn Sie keine fundamentale Wahrheit haben, können Sie das Clustering, das sich aus verschiedenen Läufen derselben Methode ergibt (Resampling), oder die Ergebnisse verschiedener Clustering-Algorithmen vergleichen, indem Sie beispielsweise Folgendes tabellieren:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
Da die Cluster nominal sind, kann sich ihre Reihenfolge beliebig ändern. Das bedeutet aber, dass Sie die Reihenfolge ändern dürfen, damit die Cluster übereinstimmen. Dann zählen die diagonalen * Elemente Fälle, die demselben Cluster zugewiesen sind, und die nicht diagonalen Elemente zeigen, wie sich die Zuweisungen geändert haben:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
Ich würde sagen, dass das Resampling gut ist, um festzustellen, wie stabil Ihr Clustering innerhalb der einzelnen Methoden ist. Ohne das macht es nicht allzu viel Sinn, die Ergebnisse mit anderen Methoden zu vergleichen.
i,i
Sie mischen nicht k-fach Kreuzvalidierung und k-Mittelwert-Clustering, oder?