Was sind die besten (empfohlenen) Vorverarbeitungsschritte vor der Durchführung von k-means?
Was sind die besten (empfohlenen) Vorverarbeitungsschritte vor der Durchführung von k-means?
Antworten:
Wenn Ihre Variablen unvergleichliche Einheiten haben (z. B. Größe in cm und Gewicht in kg), sollten Sie natürlich die Variablen standardisieren. Auch wenn Variablen die gleichen Einheiten haben, aber sehr unterschiedliche Varianzen aufweisen, ist es immer noch eine gute Idee, vor K-means zu standardisieren. Wie Sie sehen, ist die K-Mittelwert-Clusterbildung in allen Raumrichtungen "isotrop" und führt daher eher zu mehr oder weniger runden (als zu länglichen) Clustern. In dieser Situation bedeutet die Ungleichheit von Varianzen, dass Variablen mit geringerer Varianz stärker gewichtet werden, sodass Cluster tendenziell entlang von Variablen mit größerer Varianz getrennt werden.
Eine andere Sache, an die wir erinnern sollten, ist, dass die Ergebnisse von K-Means-Clustern möglicherweise von der Reihenfolge der Objekte im Datensatz . Eine berechtigte Praxis wäre es, die Analyse mehrmals durchzuführen und die Reihenfolge der Objekte zufällig zu bestimmen. Dann werden die Clusterzentren dieser Läufe gemittelt und die Zentren als Anfangszentren für einen letzten Lauf der Analyse eingegeben.
Hier einige allgemeine Überlegungen zum Thema der Standardisierung von Features in Cluster- oder anderen multivariaten Analysen.
Insbesondere (1) sind einige Methoden der Zentrumsinitialisierung abhängig von der Reihenfolge der Fälle. (2) Selbst wenn die Initialisierungsmethode nicht sensitiv ist, können die Ergebnisse manchmal von der Reihenfolge abhängen, in der die anfänglichen Zentren in das Programm eingeführt werden (insbesondere wenn gebundene, gleiche Abstände innerhalb der Daten vorhanden sind). (3) Die so genannte Running -Mean- Version des k-means-Algorithmus ist naturgemäß abhängig von der Reihenfolge der Fälle (in dieser Version - abgesehen von Online-Clustering - erfolgt die Neuberechnung der Zentroide nach der Neuzuweisung jedes einzelnen Falls ein anderes Cluster).
Kommt auf deine Daten an, denke ich. Wenn Sie möchten, dass sich Trends in Ihren Daten unabhängig von der Größe zusammenballen, sollten Sie sie zentrieren. z.B. Angenommen, Sie haben ein gewisses Genexpressionsprofil und möchten Trends in der Genexpression sehen. Ohne eine mittlere Zentrierung werden sich Ihre Gene mit niedriger Expression unabhängig von Trends zusammenlagern und von Genen mit hoher Expression entfernen. Durch die Zentrierung werden Gene (sowohl hoch als auch niedrig exprimiert) mit ähnlichen Expressionsmustern zusammengeballt.