Ich habe einen Clustering-Algorithmus (nicht k-means) mit dem Eingabeparameter (Anzahl der Cluster). Nach dem Clustering möchte ich ein quantitatives Qualitätsmaß für dieses Clustering erhalten. Der Clustering-Algorithmus hat eine wichtige Eigenschaft. Für erhalte ich, wenn ich Datenpunkte ohne signifikante Unterscheidung zwischen diesen in diesen Algorithmus einspeise, einen Cluster mit Datenpunkten und einen Cluster mit Datenpunkt. Offensichtlich ist das nicht das, was ich will. Ich möchte dieses Qualitätsmaß berechnen, um die Angemessenheit dieses Clusters abzuschätzen. Idealerweise kann ich diese Maße für verschiedene . Also werde ich Clustering im Bereich von ausführenk = 2 N N - 1und wählen Sie die mit der besten Qualität. Wie berechne ich ein solches Qualitätsmaß?
AKTUALISIEREN:
Hier ist ein Beispiel, wenn ein fehlerhaftes Clustering ist. Angenommen, es gibt 3 Punkte auf einer Ebene, die ein gleichseitiges Dreieck bilden. Das Aufteilen dieser Punkte in zwei Cluster ist offensichtlich schlimmer als das Aufteilen in ein oder drei Cluster.