Siehe auch @ttnphns answer für eine Interpretation von k-Mitteln, die tatsächlich punktweise euklidische Abstände beinhalten.
Die Art und Weise, wie k-means konstruiert ist , basiert nicht auf Entfernungen .
K-means minimiert die Varianz innerhalb des Clusters. Betrachtet man nun die Definition der Varianz, so ist sie identisch mit der Summe der quadrierten euklidischen Abstände vom Zentrum. (@ttnphns Antwort bezieht sich auf paarweise euklidische Entfernungen!)
Die Grundidee von k-means besteht darin , quadratische Fehler zu minimieren . Es gibt hier keine "Distanz".
Warum es nicht richtig ist, willkürliche Abstände zu verwenden: weil k-means möglicherweise aufhört, mit anderen Abstandsfunktionen zusammenzuarbeiten . Der allgemeine Konvergenznachweis lautet wie folgt: Der Zuweisungsschritt und der mittlere Aktualisierungsschritt optimieren beide dasselbe Kriterium. Es ist eine endliche Anzahl von Zuordnungen möglich. Daher muss es nach einer endlichen Anzahl von Verbesserungen konvergieren. Um diesen Beweis für andere Abstandsfunktionen zu verwenden, müssen Sie zeigen, dass der Mittelwert (Anmerkung: k- bedeutet ) auch Ihre Abstände minimiert.
Wenn Sie nach einer Manhattan-Distanz-Variante von k-means suchen, gibt es k-Mediane. Weil der Median ein bekannter bester L1-Schätzer ist.
Wenn Sie beliebige Distanzfunktionen wünschen, schauen Sie sich k-medoids an (auch bekannt als: PAM, Partitionierung um Medoids). Das Medoid minimiert beliebige Abstände (weil es als Minimum definiert ist ) und es gibt auch nur eine begrenzte Anzahl möglicher Medoide. Es ist jedoch viel teurer als der Durchschnitt.