Als «k-means» getaggte Fragen

k-means ist ein Verfahren zum Partitionieren von Daten in Cluster durch Finden einer bestimmten Anzahl von Mitteln k, st, wenn Daten Clustern mit dem nächsten Mittelwert zugewiesen werden, wird die w / i-Clustersumme der Quadrate minimiert

2
Warum wird bei der Clustering-Methode (K-Mittelwert) nur der Mittelwert verwendet?
Bei Clustering-Methoden wie K-means ist der euklidische Abstand die zu verwendende Metrik. Daher berechnen wir nur die Mittelwerte innerhalb jedes Clusters. Anschließend werden die Elemente anhand ihres Abstands zu jedem Mittelwert angepasst. Ich habe mich gefragt, warum die Gaußsche Funktion nicht als Metrik verwendet wird. Anstatt zu verwenden xi -mean(X), …



2
k-means ++ Algorithmus und Ausreißer
Es ist bekannt, dass der k-means-Algorithmus bei Ausreißern leidet. k-means ++ ist eine effektive Methode zur Initalisierung von Clusterzentren. Ich habe die PPT von den Gründern der Methode, Sergei Vassilvitskii und David Arthur http://theory.stanford.edu/~sergei/slides/BATS-Means.pdf (Folie 28) , durchlaufen, was zeigt, dass die Cluster-Center-Initialisierung ist nicht vom Ausreißer betroffen, wie unten …

2
K-bedeutet: Warum minimiert die Minimierung von WCSS die Entfernung zwischen Clustern?
Aus konzeptioneller und algorithmischer Sicht verstehe ich, wie K-means funktioniert. Aus mathematischer Sicht verstehe ich jedoch nicht, warum das Minimieren des WCSS (Quadratsummen innerhalb des Clusters) notwendigerweise den Abstand zwischen Clustern maximiert . Mit anderen Worten, kann jemand zeigen, wie diese Funktion der Maximierung des Abstands zwischen Clustern entspricht? Es …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.