Ich habe Rohdaten mit etwa 20 Spalten (20 Features). Zehn von ihnen sind kontinuierliche Daten und zehn von ihnen sind kategorisch. Einige der kategorialen Daten können bis zu 50 verschiedene Werte haben (US-Bundesstaaten). Nachdem ich die Daten vorverarbeitet habe, werden die 10 fortlaufenden Spalten zu 10 vorbereiteten Spalten, und die 10 kategorialen Werte werden zu 200 One-Hot-codierten Variablen. Ich mache mir Sorgen, dass, wenn ich all diese 200 + 10 = 210 Merkmale in das neuronale Netz stecke, die 200-one-hot-Merkmale (die 10 kategorialen Spalten) die 10-stetigen Merkmale vollständig dominieren.
Vielleicht wäre eine Methode, Spalten zu "gruppieren" oder so. Ist dies ein berechtigtes Anliegen und gibt es eine Standardmethode, um mit diesem Problem umzugehen?
(Ich benutze Keras, obwohl ich nicht denke, dass es wichtig ist.)