Auswahl der richtigen Verknüpfungsmethode für hierarchisches Clustering

Ich führe ein hierarchisches Clustering für Daten durch, die ich aus dem reddit-Daten-Dump in Google BigQuery gesammelt und verarbeitet habe.

Mein Prozess ist der folgende:

Holen Sie sich die neuesten 1000 Beiträge in / r / politics
Sammeln Sie alle Kommentare
Verarbeiten Sie die Daten und berechnen Sie eine n x mDatenmatrix (n: Benutzer / Stichproben, m: Beiträge / Funktionen)
Berechnen Sie die Distanzmatrix für das hierarchische Clustering
Wählen Sie eine Verknüpfungsmethode und führen Sie das hierarchische Clustering durch
Zeichnen Sie die Daten als Dendrogramm

Meine Frage ist, wie finde ich die beste Verbindungsmethode ? Ich bin derzeit Wardaber wie kann ich wissen , ob ich verwenden soll single, complete, average, etc?

Ich bin sehr neu in diesem Bereich, aber ich kann online keine eindeutige Antwort finden, da ich nicht sicher bin, ob es eine gibt. Was ist also eine gute Idee für meine Bewerbung? Beachten Sie, dass die Daten in dem Sinne relativ spärlich sind, dass die n x mMatrix viele Nullen enthält (die meisten Leute kommentieren nicht mehr als ein paar Beiträge).

— Kevin Eger
quelle

Was würde "am besten" in Ihrem Kontext bedeuten, wenn Sie das spezifische Verknüpfungsproblem außer Acht lassen?

— gung - Reinstate Monica

Das Beste für mich ist, den logischsten Weg zu finden, um meine Art von Daten zu verknüpfen. Das heißt: Welcher Ansatz definiert genau, was in meinen Funktionen unter "Entfernung" zu verstehen ist.

— Kevin Eger

Kevin, bitte werfen Sie einen Blick auf diese Antwort und diese sehr aktuelle Frage . Sie werden feststellen, dass die Frage ("welche Methode zu verwenden ist"), die Sie stellen, nicht einfach ist. Sie sollten unbedingt (zumindest hierarchische) Literatur zu Clustering lesen, bevor Sie den Unterschied zwischen den Methoden erkennen und wählen können. Die Datenanalyse ist nicht von der Hand zu weisen.

— TTNPHNS

@ttnphns, danke für den Link - war eine gute Lektüre und ich werde diese Punkte berücksichtigen.

— Kevin Eger

Methodenübersicht

Kurzreferenz zu einigen Verknüpfungsmethoden der hierarchischen agglomerativen Clusteranalyse (HAC).

Die Basisversion des HAC-Algorithmus ist eine generische; Bei jedem Schritt werden nach der als Lance-Williams-Formel bekannten Formel die Ähnlichkeiten zwischen dem entstehenden (aus zwei verschmolzenen) Cluster und allen anderen bisher existierenden Clustern (einschließlich Singleton-Objekten) aktualisiert. Es gibt Implementierungen, die keine Lance-Williams-Formel verwenden. Die Verwendung ist jedoch praktisch: Sie können verschiedene Verknüpfungsmethoden mit derselben Vorlage codieren .

Die Wiederholungsformel enthält mehrere Parameter (Alpha, Beta, Gamma). Abhängig von der Verknüpfungsmethode werden die Parameter unterschiedlich festgelegt, sodass die unverpackte Formel eine bestimmte Ansicht erhält. Viele Texte zu HAC zeigen die Formel, ihre methodenspezifischen Ansichten und erläutern die Methoden. Ich würde Artikel von Janos Podani als sehr gründlich empfehlen.

Der Raum und der Bedarf für die verschiedenen Methoden ergeben sich aus der Tatsache, dass eine Nähe (Distanz oder Ähnlichkeit) zwischen zwei Clustern oder zwischen einem Cluster und einem Singleton-Objekt auf viele verschiedene Arten formuliert werden kann. HAC führt bei jedem Schritt zwei engste Cluster oder Punkte zusammen, aber wie man die vorgenannte Nähe in der Fläche berechnet, in der die Eingabe-Nähe-Matrix nur zwischen einzelnen Objekten definiert wurde, ist das zu formulierende Problem.

Die Methoden unterscheiden sich also darin, wie sie die Nähe zwischen zwei beliebigen Clustern bei jedem Schritt definieren. "Kolligationskoeffizient" (Ausgabe im Agglomerationsplan / -verlauf und Bildung der "Y" -Achse in einem Dendrogramm) ist nur die Nähe zwischen den beiden Clustern, die in einem bestimmten Schritt zusammengeführt wurden.

Methode der einfachen Verknüpfung oder des nächsten Nachbarn . Die Nähe zwischen zwei Clustern ist die Nähe zwischen ihren beiden nächsten Objekten. Dieser Wert ist einer der Werte der Eingabematrix. Die konzeptuelle Metapher dieses gebauten Clusters, seines Archetyps, ist Spektrum oder Kette . Ketten können gerade oder krummlinig sein oder wie "Schneeflocken" - oder "Amöben" -Ansichten. Zwei sehr unterschiedliche Clustermitglieder können im Vergleich zu zwei sehr ähnlichen sehr unterschiedlich sein. Die Einzelverbindungsmethode steuert nur die Ähnlichkeit der nächsten Nachbarn.
Methode der vollständigen Verknüpfung oder des entferntesten Nachbarn . Die Nähe zwischen zwei Clustern ist die Nähe zwischen ihren beiden entferntesten Objekten. Dieser Wert ist einer der Werte der Eingabematrix. Die Metapher dieses Clusters ist ein Kreis (im Sinne von Hobby oder Handlung), in dem zwei am weitesten voneinander entfernte Mitglieder nicht viel unterschiedlicher sein können als andere recht unterschiedliche Paare (wie im Kreis). Solche Cluster sind an ihren Grenzen "kompakte" Konturen, aber sie sind nicht notwendigerweise im Inneren kompakt.
Methode der durchschnittlichen Verknüpfung zwischen Gruppen (UPGMA). Die Annäherung zwischen zwei Clustern ist das arithmetische Mittel aller Annäherungen zwischen den Objekten auf der einen Seite und den Objekten auf der anderen Seite. Die Metapher dieses Clusters ist ziemlich allgemein gehalten, nur eine vereinte Klasse oder ein eng verbundenes Kollektiv. und die Methode wird häufig als Standard in hierarchischen Clustering-Paketen festgelegt. Cluster verschiedener Formen und Umrisse können erzeugt werden.
Der einfache Durchschnitt oder die Methode der ausgeglichenen durchschnittlichen Verbindung zwischen Gruppen (WPGMA) ist der modifizierte vorherige. Die Annäherung zwischen zwei Clustern ist das arithmetische Mittel aller Annäherungen zwischen den Objekten auf der einen Seite und den Objekten auf der anderen Seite. während die Subcluster, von denen jeder dieser beiden Cluster kürzlich zusammengeführt wurde, einen ausgeglichenen Einfluss auf diese Nähe haben - selbst wenn sich die Subcluster in der Anzahl der Objekte unterschieden.
Methode der gruppeninternen Durchschnittsbindung (MNDIS). Die Annäherung zwischen zwei Clustern ist das arithmetische Mittel aller Annäherungen in ihrem gemeinsamen Cluster. Diese Methode ist eine Alternative zu UPGMA. Es verliert normalerweise an Clusterdichte, entdeckt aber manchmal Clusterformen, die UPGMA nicht erkennt.
Schwerpunktmethode (UPGMC). Die Nähe zwischen zwei Clustern ist die Nähe zwischen ihren geometrischen Schwerpunkten: [Quadrat] euklidischer Abstand zwischen diesen. Die Metapher dieses gebauten Clusters ist die Nähe von Plattformen (Politik). Wie in politischen Parteien können solche Cluster Bruchteile oder "Fraktionen" haben, aber wenn ihre zentralen Figuren nicht voneinander getrennt sind, ist die Union konsistent. Cluster können je nach Gliederung unterschiedlich sein.
Die mittlere oder gleichgewichtige Schwerpunktmethode (WPGMC) ist die modifizierte vorherige Methode. Die Nähe zwischen zwei Clustern ist die Nähe zwischen ihren geometrischen Schwerpunkten ([quadratischer] euklidischer Abstand zwischen diesen); Während die Schwerpunkte so definiert sind, dass die Subcluster, aus denen jeder dieser beiden Cluster in letzter Zeit zusammengeführt wurde, einen ausgeglichenen Einfluss auf den Schwerpunkt haben - auch wenn sich die Subcluster in der Anzahl der Objekte unterschieden.
$SS_{12}-(SS_1+SS_2)$ $2$ . Intuitiv ist ein Typ eine Wolke, die dichter und konzentrischer zu seiner Mitte ist, während Randpunkte wenige sind und relativ frei gestreut werden können.

Einige weniger bekannte Methoden (siehe Podany J. New combinatorial clustering methods // Vegetatio, 1989, 81: 61-77.) [Ebenfalls von mir als SPSS-Makro auf meiner Webseite implementiert]:

$SS_{12}$ $2$
$MS_{12}-(n_1MS_1+n_2MS_2)/(n_1+n_2) = [SS_{12}-(SS_1+SS_2)]/(n_1+n_2)$ $4$
Methode der minimalen Varianz (MNVAR). Die Nähe zwischen zwei Clustern ist das mittlere Quadrat in ihrem gemeinsamen Cluster: $MS_{12} = SS_{12}/(n_1+n_2)$ . (Zwischen zwei Singleton-Objekten ist diese Größe = quadratischer euklidischer Abstand / $4$ .).

Die ersten 5 Methoden erlauben alle Näherungsmessungen (Ähnlichkeiten oder Entfernungen) und die Ergebnisse hängen natürlich von der gewählten Maßnahme ab.

Die letzten 6 Methoden erfordern Abstände; und völlig richtig wird es sein, nur quadratische euklidische Abstände mit ihnen zu verwenden, weil diese Methoden Zentroide im euklidischen Raum berechnen. Aus Gründen der geometrischen Korrektheit sollten daher die Abstände euklidisch sein (diese 6 Methoden werden als geometrische Verknüpfungsmethoden bezeichnet). Im schlimmsten Fall können Sie eine andere Metrik eingebenAbstände bei der Zulassung von heuristischeren, weniger strengen Analysen. Nun zu diesem "Quadrat". Die Berechnung von Zentroiden und Abweichungen von ihnen ist mathematisch / programmatisch am bequemsten, um quadratische Entfernungen zu berechnen. Daher müssen HAC-Pakete normalerweise eingegeben und für die Verarbeitung quadratischer Entfernungen optimiert werden. Es gibt jedoch Implementierungen, die vollständig äquivalent, jedoch etwas langsamer sind und auf nichtquadratischen eingegebenen Entfernungen basieren und diese erfordern. Siehe zum Beispiel "Ward-2" -Implementierung für die Methode von Ward. Sie sollten in der Dokumentation Ihres Cluster-Programms nachlesen, welche - quadratischen oder nicht quadratischen - Abstände bei der Eingabe einer "geometrischen Methode" zu erwarten sind, um dies richtig zu machen.

Für die Methoden MNDIS, MNSSQ und MNVAR sind neben der Aktualisierung der Lance-Williams-Formel einige Schritte erforderlich, um eine Statistik innerhalb des Clusters zu speichern (abhängig von der Methode).

Methoden, die am häufigsten in Studien verwendet werden, bei denen erwartet wird, dass Cluster mehr oder weniger runde Wolken sind, sind Methoden der durchschnittlichen Verknüpfung, der vollständigen Verknüpfungsmethode und der Ward-Methode.

Die Methode von Ward kommt der K-Mittel-Clusterbildung aufgrund ihrer Eigenschaften und Effizienz am nächsten. Sie haben die gleiche Zielfunktion - die Minimierung der gebündelten SS innerhalb des Clusters "am Ende". Natürlich ist K-means (iterativ und wenn es mit anständigen Anfangszentroiden versehen ist) normalerweise ein besserer Minimierer dafür als Ward. Ward scheint mir jedoch ein bisschen genauer zu sein als K-Means, wenn es darum geht, Cluster ungleicher physikalischer Größe (Varianzen) oder Cluster, die sehr unregelmäßig im Raum geworfen werden, aufzudecken. Die MIVAR-Methode ist komisch für mich. Ich kann mir nicht vorstellen, wann sie empfohlen werden könnte. Sie produziert nicht genügend Cluster.

Methoden Schwerpunkt, Median, minimale Varianzzunahme - können manchmal die sogenannten Umkehrungen hervorrufen : Ein Phänomen, bei dem die beiden Cluster, die zu einem bestimmten Zeitpunkt zusammengeführt werden, näher beieinander erscheinen als früher zusammengeführte Clusterpaare. Das liegt daran, dass diese Methoden nicht zur sogenannten Ultrametrie gehören. Diese Situation ist unbequem, aber theoretisch in Ordnung.

Methoden der Einfachverknüpfung und des Schwerpunkts gehören zum sogenannten Space Contracting oder „Chaining“. Das bedeutet - grob gesagt -, dass sie dazu neigen, Objekte nacheinander an Cluster zu binden, und somit ein relativ gleichmäßiges Wachstum der Kurve „% der geclusterten Objekte“ aufweisen. Im Gegenteil, Methoden der vollständigen Verknüpfung, Wards, der Quadratsumme, der Varianzzunahme und der Varianz erhalten häufig einen beträchtlichen Anteil an Objekten, die bereits in frühen Schritten gebündelt wurden, und führen dann noch die Zusammenführung durch - daher die Kurve „% der gebündelten Objekte“ ”Ist von den ersten Schritten an steil. Diese Methoden werden Raumerweiterung genannt . Andere Methoden liegen dazwischen.

Flexible Ausführungen . Durch Hinzufügen des zusätzlichen Parameters in die Lance-Willians-Formel ist es möglich, eine Methode in ihren Schritten spezifisch selbstabzustimmen. Der Parameter führt eine Korrektur für die berechnete Nähe zwischen den Clustern durch, die von der Größe (Ausmaß der De-Kompaktheit) der Cluster abhängt. Die Bedeutung des Parameters besteht darin, dass die Agglomerationsmethode mehr Raumerweiterung oder Raumkontraktion zur Folge hat, als die Standardmethode zu sein verurteilt ist. Die bislang bekannteste Implementierung der Flexibilität besteht in der Mittelung der Kopplungsmethoden UPGMA und WPGMA (L. Belbin et al., Ein Vergleich zweier Ansätze für beta-flexibles Clustering // Multivariate Behavioral Research, 1992, 27, 417–433). ).

Dendrogramm. Auf einer Dendrogramm- "Y" -Achse wird typischerweise die Nähe zwischen den zusammengeführten Clustern angezeigt - wie durch die obigen Methoden definiert. Daher wird zum Beispiel bei der Schwerpunktmethode der quadratische Abstand in der Regel gemessen (letztendlich hängt er vom Paket und den verfügbaren Optionen ab) - einige Untersuchungen sind sich dessen nicht bewusst. Auch bei Methoden, die auf dem Inkrement der Nichtdichte basieren, wie z. B. Wards, ist der im Dendrogramm angegebene kumulative Wert traditionell eher aus praktischen Gründen als aus theoretischen Gründen. Daher repräsentiert (in vielen Paketen) der geplottete Koeffizient in der Ward-Methode die Gesamtsumme der Quadrate innerhalb eines Clusters, die zum Zeitpunkt eines bestimmten Schritts über alle Cluster hinweg beobachtet wurde.

Man sollte nicht beurteilen, welche Verknüpfungsmethode für seine Daten "besser" ist, indem man das Aussehen der Dendrogramme vergleicht: nicht nur, weil sich das Aussehen ändert, wenn man ändert, welche Modifikation des Koeffizienten Sie dort zeichnen - wie gerade beschrieben -, sondern auch, weil Das Aussehen unterscheidet sich auch bei Daten ohne Cluster.

So wählen Sie die "richtige" Methode

Es gibt kein einzelnes Kriterium. Einige Richtlinien für die Auswahl einer Clusteranalyse-Methode (einschließlich einer Verknüpfungsmethode in HAC als Sonderfall) sind in dieser Antwort und dem gesamten darin enthaltenen Thread aufgeführt.

— ttnphns
quelle

Die Korrelation zwischen der Distanzmatrix und der kophenetischen Distanz ist eine Metrik, um zu beurteilen, welche Clusterverknüpfung ausgewählt werden soll. Von ?cophenetic:

Es kann argumentiert werden, dass ein Dendrogramm eine angemessene Zusammenfassung einiger Daten ist, wenn die Korrelation zwischen den ursprünglichen Abständen und den kophenetischen Abständen hoch ist.

Auf diese Verwendung cor(dist,cophenetic(hclust(dist)))als Verbindungsauswahlmetrik wird auf Seite 38 dieser vegan Vignette verwiesen .

Siehe folgenden Beispielcode:

# Data
d0=dist(USArrests)

# Hierarchical Agglomerative Clustering
h1=hclust(d0,method='average')
h2=hclust(d0,method='complete')
h3=hclust(d0,method='ward.D')
h4=hclust(d0,method='single')

# Cophenetic Distances, for each linkage
c1=cophenetic(h1)
c2=cophenetic(h2)
c3=cophenetic(h3)
c4=cophenetic(h4)

# Correlations
cor(d0,c1) # 0.7658983
cor(d0,c2) # 0.7636926
cor(d0,c3) # 0.7553367
cor(d0,c4) # 0.5702505

# Dendograms
par(mfrow=c(2,2))
plot(h1,main='Average Linkage')
plot(h2,main='Complete Linkage')
plot(h3,main='Ward Linkage')
plot(h4,main='Single Linkage')
par(mfrow=c(1,1))

Wir sehen, dass die Korrelationen für averageund completeextrem ähnlich sind und ihre Dendogramme sehr ähnlich aussehen. Die Korrelation für wardist ähnlich averageund completedas Dendogramm sieht ziemlich anders aus. singleVerknüpfung macht seine eigene Sache. Die bestmögliche fachliche Beurteilung durch einen Fachexperten oder der Vorrang vor einem bestimmten Link auf dem Gebiet von Interesse sollte wahrscheinlich die numerische Ausgabe von überschreiben cor().

— kakarot
quelle