Wenn ich einen bestimmten Datensatz habe, wie intelligent wäre es dann, Cluster-Zentren mithilfe von Zufallsstichproben dieses Datensatzes zu initialisieren?
Angenommen, ich möchte 5 clusters
. Ich nehme 5 random samples
von sagen wir, size=20%
des ursprünglichen Datensatzes. Könnte ich dann den Mittelwert jeder dieser 5 Zufallsstichproben als meine 5 anfänglichen Cluster-Zentren verwenden? Ich weiß nicht, wo ich das lese, aber ich wollte wissen, was ihr über die Idee denkt.
UPDATE: Bitte lesen Sie diesen Thread Initialisierung von K-means Clustering: Welche Methoden gibt es? für die allgemeine Diskussion über die verschiedenen Initialisierungsmethoden.