Schauen Sie sich die Silhouette-Punktzahl an
Formel für den i- ten Datenpunkt
(b(i) - a(i)) / max(a(i),b(i))
wobei b (i) -> Unähnlichkeit vom nächsten benachbarten Cluster
a (i) -> Unähnlichkeit zwischen Punkten innerhalb des Clusters
Dies ergibt eine Punktzahl zwischen -1 und +1.
Deutung
+1 bedeutet sehr gute Passform
-1 bedeutet falsch klassifiziert [sollte zu einem anderen Cluster gehören]
Nachdem Sie die Silhouette-Punktzahl für jeden Datenpunkt berechnet haben, können Sie die Auswahl für die Anzahl der Cluster anrufen.
Codebeispiel
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score
X, y = make_blobs(n_samples=500,
n_features=2,
centers=4,
cluster_std=1,
center_box=(-10.0, 10.0),
shuffle=True,
random_state=1) # For reproducibility
range_n_clusters = [2, 3, 4, 5, 6]
for n_clusters in range_n_clusters:
# Initialize the clusterer with n_clusters value and a random generator
# seed of 10 for reproducibility.
clusterer = KMeans(n_clusters=n_clusters, random_state=10)
cluster_labels = clusterer.fit_predict(X)
# The silhouette_score gives the average value for all the samples.
# This gives a perspective into the density and separation of the formed
# clusters
silhouette_avg = silhouette_score(X, cluster_labels)
print("For n_clusters =", n_clusters,
"The average silhouette_score is :", silhouette_avg)
# Compute the silhouette scores for each sample
sample_silhouette_values = silhouette_samples(X, cluster_labels)