Mir ist also klar, dass dies schon einmal gefragt wurde: z. B. Was sind die Anwendungsfälle im Zusammenhang mit der Clusteranalyse verschiedener Entfernungsmetriken? aber ich habe festgestellt, dass die Antworten etwas widersprüchlich zu dem sind, was in der Literatur vorgeschlagen wird.
Kürzlich habe ich zwei Artikel gelesen, in denen die Verwendung des kmeans-Algorithmus mit anderen Metriken erwähnt wurde, z. B. die Bearbeitungsentfernung zwischen Zeichenfolgen und die "Erdbewegungsentfernung" zwischen Verteilungen. Angesichts der Tatsache, dass in diesen Papieren die Verwendung von km-Werten mit anderen Metriken erwähnt wird, ohne anzugeben, wie , insbesondere wenn es um die Berechnung des Mittelwerts von Punktmengen geht, wird mir nahegelegt , dass es möglicherweise eine "Standard" -Methode gibt, um damit umzugehen, die ich einfach nicht auswähle auf.
Nehmen wir zum Beispiel dieses Papier , das eine schnellere Implementierung des k-means-Algorithmus ermöglicht. Der Autor zitiert aus Absatz 4 im Intro, dass sein Algorithmus "mit jeder Black-Box-Entfernungsmetrik verwendet werden kann", und erwähnt im nächsten Absatz die Bearbeitungsentfernung als spezifisches Beispiel. Sein Algorithmus berechnet jedoch immer noch den Mittelwert einer Reihe von Punkten und erwähnt nicht, wie sich dies auf die Ergebnisse mit anderen Metriken auswirken könnte (ich bin besonders ratlos darüber, wie der Mittelwert mit der Bearbeitungsentfernung funktionieren würde).
Das andere Papier beschreibt unter Verwendung von k-means Poker Hände für eine Texas Hold-em Abstraktion gruppieren. Wenn Sie zu Seite 2 unten in der linken Spalte springen, schreibt der Autor "und dann wird k-means verwendet, um eine Abstraktion mit der gewünschten Anzahl von Clustern unter Verwendung der Erdbewegungsentfernung zwischen jedem Histogrammpaar als Entfernungsmetrik zu berechnen".
Ich bin nicht wirklich auf der Suche nach jemandem, der mir diese Artikel erklärt, aber fehlt mir eine Standardmethode für die Verwendung von k-means mit anderen Metriken? Die Standardmittelung mit dem Erdbewegungsabstand scheint heuristisch zu funktionieren, aber der Bearbeitungsabstand scheint überhaupt nicht in die Form zu passen. Ich schätze jeden Einblick, den jemand geben könnte.
(Bearbeiten) : Ich habe k-means für Verteilungshistogramme unter Verwendung der Erdbewegungsentfernung (ähnlich wie im Pokerpapier) ausprobiert und es schien gut funktioniert zu haben. Die ausgegebenen Cluster sahen für meinen Anwendungsfall ziemlich gut aus. Zur Mittelwertbildung habe ich die Histogramme nur als Vektoren behandelt und auf normale Weise gemittelt. Das einzige, was mir aufgefallen ist, ist, dass die Summe über alle Punkte der Entfernungen zu den Mitteln nicht immer monoton abnahm. In der Praxis würde es sich jedoch trotz monotoner Probleme innerhalb von 10 Iterationen auf ein lokales Minimum festlegen. Ich gehe davon aus, dass dies das ist, was sie in der zweiten Veröffentlichung getan haben. Die einzige Frage, die dann noch offen ist, ist, wie zum Teufel würden Sie den Durchschnitt ermitteln, wenn Sie so etwas wie die Bearbeitungsentfernung verwenden?