k-bedeutet vs k-Median?


14

Ich weiß, dass es einen K-Mittelwert-Clustering-Algorithmus und einen K-Median gibt. Einer, der den Mittelwert als Mittelpunkt des Clusters verwendet, und der andere verwenden den Median. Meine Frage ist: wann / wo welche verwenden?


Sie müssen Mediane definieren (und sie möglicherweise berechnen), wenn Sie mehr als eine Dimension haben. Wenn Sie nur den Median für jeden Wert nehmen, verlieren Sie die Rotationseigenschaften. Eine weitere Möglichkeit ist k- medoids
Henry

Antworten:


14

k-means minimiert die Varianz innerhalb des Clusters, was euklidischen Abständen im Quadrat entspricht.

Im Allgemeinen tut das arithmetische Mittel dies. Es tut nicht optimize Entfernungen, sondern quadratische Abweichungen vom Mittelwert.

k-Mediane minimieren absolute Abweichungen, die der Manhattan-Entfernung entsprechen.

Im Allgemeinen sollte dies der Median pro Achse tun. Es ist ein guter Schätzer für den Mittelwert, wenn Sie die Summe der absoluten Abweichungen (dh sum_i abs (x_i-y_i)) anstelle der quadrierten Abweichungen minimieren möchten.

Es geht nicht um Genauigkeit. Es ist eine Frage der Richtigkeit. ;-)

Hier ist also Ihr Entscheidungsbaum:

  • Wenn Ihr Abstand zum Quadrat der euklidischen Distanz ist , verwenden Sie k-means
  • Wenn Ihre Entfernung Taxicab-Metrik ist , verwenden Sie k-Mediane
  • Wenn Sie einen anderen Abstand haben , verwenden Sie k-Medoide

Einige Ausnahmen: Soweit ich das beurteilen kann, hängt die Maximierung der Kosinusähnlichkeit mit der Minimierung des euklidischen Quadratabstands für L2-normalisierte Daten zusammen. Also, wenn Ihre Daten L2 normalisiert sind; und Sie l2-normalisieren Ihre Mittelwerte bei jeder Iteration, dann können Sie wieder k-Mittelwerte verwenden.


Ich bezweifle etwas die Aussage, dass der Median die Manhattan-Entfernung minimiert, da es kein eindeutiges Konzept für einen Median für mehrdimensionale Daten gibt. Es ist nicht falsch, aber ich finde es eine irreführende Aussage in einem mehrdimensionalen Kontext. Es gibt mehrere mehrdimensionale Verallgemeinerungen von Medianen, von denen viele keinen Zusammenhang mit der Minimierung von Manhattan-Entfernungen haben.
Tim Seguine

1
Ich ändere dies auf pro-Achsen-Median. Ich hoffe, Sie sind jetzt glücklicher.
Anony-Mousse -Reinstate Monica

2

Wenn Sie eine Analyse ohne Berücksichtigung der möglichen Auswirkung von Extremwerten durchführen möchten, verwenden Sie k bedeutet, wenn Sie jedoch genauer sein möchten, verwenden Sie k Median


5
Können Sie diese Behauptungen auf irgendeine Weise unterstützen und / oder erklären?
Jona

Ja, können Sie bitte mehr ausarbeiten? mit Beispielen?
Jack Twain

2
Ich denke, das liegt daran, dass "Median" die Ausreißer tolerieren kann, "Mean" jedoch völlig von ihnen betroffen ist. Zum Beispiel: Wenn wir die Datenpunkte {1,2,3,5,78} haben, ist es offensichtlich, dass 78 ein Ausreißer ist. Der Median dieser Daten ist 3 und der Mittelwert ist 17,8. Der Median ist also der beste Weg, um diese Daten zusammenzufassen.
Fadwa
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.