Die meisten klassischen Algorithmen für Clustering und Dimensionsreduktion (hierarchisches Clustering, Hauptkomponentenanalyse, k-Means, selbstorganisierende Karten ...) wurden speziell für numerische Daten entwickelt und ihre Eingabedaten werden als Punkte in einem euklidischen Raum betrachtet.
Dies ist natürlich ein Problem, da es sich bei vielen Fragen aus der Praxis um gemischte Daten handelt: Wenn wir beispielsweise Busse untersuchen, sind Höhe, Länge und Motorgröße Zahlen, es könnte aber auch die Farbe von Interesse sein (kategoriale Variable: blau) / rot / grün ...) und Kapazitätsklassen (bestellte Variable: kleine / mittlere / große Kapazität). Insbesondere möchten wir diese verschiedenen Arten von Variablen möglicherweise gleichzeitig untersuchen.
Es gibt eine Reihe von Methoden, um klassische Clustering-Algorithmen auf gemischte Daten zu erweitern, z. B. mithilfe einer Gower-Unähnlichkeit, um hierarchische Clustering- oder mehrdimensionale Skalierungsmethoden zu verwenden, oder mithilfe anderer Methoden, die eine Distanzmatrix als Eingabe verwenden. Oder zum Beispiel diese Methode, eine Erweiterung von SOM auf gemischte Daten.
Meine Frage ist: Warum können wir nicht einfach den euklidischen Abstand für gemischte Variablen verwenden? oder warum ist es schlecht so zu tun? Warum können wir nicht einfach Dummy-kodieren die kategorische Variablen, normalisieren alle Variablen , so dass sie ein ähnliches Gewicht im Abstand zwischen Beobachtungen haben, und die üblichen algos auf diesen Matrizen laufen?
Es ist wirklich einfach und nie getan, also denke ich, dass es sehr falsch ist, aber kann mir jemand sagen, warum? Und / oder gib mir ein paar refs? Vielen Dank