Ich arbeite an einem Datensatz mit mehr als 200.000 Stichproben und ungefähr 50 Merkmalen pro Stichprobe: 10 kontinuierliche Variablen und die anderen ~ 40 sind kategoriale Variablen (Länder, Sprachen, wissenschaftliche Gebiete usw.). Für diese kategorialen Variablen haben Sie beispielsweise 150 verschiedene Länder, 50 Sprachen, 50 wissenschaftliche Bereiche usw.
Bisher ist mein Ansatz:
Nehmen Sie für jede kategoriale Variable mit vielen möglichen Werten nur die mit mehr als 10000 Stichproben, die diesen Wert annehmen. Dies reduziert sich auf 5-10 statt 150 Kategorien.
Erstellen Sie für jede Kategorie eine Dummy-Variable (wenn 10 Länder, dann fügen Sie für jede Stichprobe einen Binärvektor der Größe 10 hinzu).
Versorgen Sie einen zufälligen Gesamtstrukturklassifizierer (überprüfen Sie die Parameter usw.) mit diesen Daten.
Gegenwärtig schaffe ich es mit diesem Ansatz nur, eine Genauigkeit von 65% zu erreichen, und ich habe das Gefühl, dass mehr getan werden kann. Insbesondere bin ich mit meiner 1) nicht zufrieden, da ich der Meinung bin, dass ich die "am wenigsten relevanten Werte" nicht willkürlich entsprechend der Anzahl der Stichproben entfernen sollte, da diese weniger repräsentierten Werte diskriminierender sein könnten. Andererseits kann es sich mein RAM nicht leisten, 500 Spalten * 200000 Zeilen zu den Daten hinzuzufügen, indem alle möglichen Werte beibehalten werden.
Hätten Sie einen Vorschlag, mit diesen vielen kategorialen Variablen umzugehen?