Ich stehe oft vor dem Problem, eine bestimmte Anzahl von Clustern auswählen zu müssen. Die Partition, die ich am Ende wähle, basiert häufiger auf visuellen und theoretischen Bedenken als auf Qualitätskriterien.
Ich habe zwei Hauptfragen.
Der erste betrifft die allgemeine Idee der Clusterqualität. Soweit ich weiß, schlagen Kriterien wie der "Ellbogen" einen optimalen Wert in Bezug auf eine Kostenfunktion vor. Das Problem, das ich mit diesem Rahmen habe, ist, dass die optimalen Kriterien für theoretische Überlegungen blind sind, so dass es einen gewissen Grad an Komplexität (in Bezug auf Ihr Studienfach) gibt, der in Ihren endgültigen Gruppen / Clustern immer gewünscht wird.
Darüber hinaus hängt der optimale Wert , wie hier erläutert , auch mit Einschränkungen des "nachgelagerten Zwecks" (z. B. wirtschaftlichen Einschränkungen) zusammen. Überlegen Sie also , was Sie mit den Clustering-Angelegenheiten tun werden .
Eine Einschränkung besteht offensichtlich darin, sinnvolle / interpretierbare Cluster zu finden. Je mehr Cluster Sie haben, desto schwieriger ist es, sie zu interpretieren.
Dies ist jedoch nicht immer der Fall. Sehr oft stelle ich fest, dass 8, 10 oder 12 Cluster die minimale "interessante" Anzahl von Clustern sind, die ich in meiner Analyse haben möchte.
Sehr oft deuten Kriterien wie der Ellbogen jedoch auf viel weniger Cluster hin, im Allgemeinen 2,3 oder 4.
Q1 . Was ich gerne wissen würde, ist, was die beste Argumentationslinie ist, wenn Sie sich entscheiden, mehr Cluster als die durch bestimmte Kriterien (wie den Ellbogen) vorgeschlagene Lösung zu wählen . Intuitiv sollte das Mehr immer besser sein, wenn es keine Einschränkungen gibt (wie die Verständlichkeit der Gruppen, die Sie erhalten, oder im Coursera- Beispiel, wenn Sie eine sehr große Geldsumme haben). Wie würden Sie dies in einem wissenschaftlichen Zeitschriftenartikel argumentieren?
Eine andere Möglichkeit, dies auszudrücken, besteht darin, zu sagen, dass Sie, sobald Sie die Mindestanzahl von Clustern (mit diesen Kriterien) ermittelt haben, überhaupt begründen müssen, warum Sie mehr Cluster als diese ausgewählt haben? Sollte die Rechtfertigung nicht nur bei der Auswahl der minimalen sinnvollen Anzahl von Clustern erfolgen?
Q2 . In diesem Zusammenhang verstehe ich nicht, wie bestimmte Qualitätsmaßstäbe wie die Silhouette mit zunehmender Anzahl von Clustern tatsächlich abnehmen können. Ich sehe in der Silhouette keine Bestrafung für die Anzahl der Cluster. Wie kann das sein? Theoretisch ist die Clusterqualität umso höher , je mehr Cluster Sie haben .
# R code
library(factoextra)
data("iris")
ir = iris[,-5]
# Hierarchical Clustering, Ward.D
# 5 clusters
ec5 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean',
hc_method = 'ward.D', graph = T, k = 5)
# 20 clusters
ec20 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean',
hc_method = 'ward.D', graph = T, k = 20)
a = fviz_silhouette(ec5) # silhouette plot
b = fviz_silhouette(ec20) # silhouette plot
c = fviz_cluster(ec5) # scatter plot
d = fviz_cluster(ec20) # scatter plot
grid.arrange(a,b,c,d)
Theoretically, the more clusters you have, the greater is the cluster quality
Absolut nein, nicht unbedingt. Die meisten internen Clustering-Kriterien (einschließlich) des Silhouette-Index sind auf diese oder jene Weise in ihrer Formel "normalisiert" oder kalibriert, um zu versuchen, bei der besten Anzahl (n) von Clustern k extrem zu sein, so dass k kleiner oder größer als diese Anzahl ist ergibt einen niedrigeren Kriteriumswert. Das "Elbow SSw" -Kriterium ist sowieso nicht normalisiert, und es ist schlecht und nicht erwägenswert. Verwenden Sie stattdessen Clinski-Harabasz oder Davies-Bouldin als Normalisierungen.
what is the best line of argument when you decide to choose more clusters rather than the solution proposed by a certain criteria
Wenn Sie meine Facetten unter dem obigen Link lesen, werden Sie verstehen, dass es keine einzigen besten oder synthetisierten Argumente geben kann. Schließlich ist das beste Argument (für ein kleineres oder größeres k) seine Überzeugungskraft für sich selbst oder das Publikum. Die menschliche Entscheidung basiert nicht auf Argumenten, sondern ist willkürlich. argumentieren heißt erklären , entschuldigen, was niemals entschuldigt werden kann.