Ich habe viele Artikel gelesen, in denen k-means mit vielen Datensätzen getestet wird, die normalerweise nicht wie der Iris-Datensatz verteilt sind, und um gute Ergebnisse zu erzielen. Da ich verstehe, dass k-means für normalverteilte Daten ist, warum wird k-means für nicht normalverteilte Daten verwendet?
In der folgenden Veröffentlichung wurden beispielsweise die Zentroide von k-means basierend auf einer Normalverteilungskurve modifiziert und der Algorithmus mit dem nicht normalverteilten Iris-Datensatz getestet.
Fast alle Lieferanten (genau 99,73%) haben Punkt-zu-Schwerpunkt-Abstände innerhalb von 3 Standardabweichungen (𝜎) vom Bevölkerungsmittelwert.
Gibt es etwas, das ich hier nicht verstehe?
- Olukanmi & Twala (2017). K-means-scharf: Modifiziertes Schwerpunkt-Update für ausreißerstabiles k-means-Clustering
- Iris-Datensatz
iris
Datensatz tatsächlich innerhalb von 3 SD der Zentroide liegen? Es ist wahrscheinlich immer noch wahr, es folgt einfach nicht automatisch , wenn die Verteilung nicht normal ist. Vermutlich müssen die Autoren nur einen Einzeiler hinzufügen, um dies zu verdeutlichen.