Hallo, Datenrahmen mit großen kategorialen Werten über 1600 Kategorien gibt es eine Möglichkeit, Alternativen zu finden, damit ich nicht über 1600 Spalten habe.
Ich fand diesen unten interessanten Link http://amunategui.github.io/feature-hashing/#sourcecode
Aber sie konvertieren zu Klasse / Objekt, was ich nicht will. Ich möchte meine endgültige Ausgabe als Datenrahmen, damit ich mit verschiedenen Modellen für maschinelles Lernen testen kann. Oder kann ich die genetrierte Matrix verwenden, um andere Modelle des maschinellen Lernens als logistische Regression oder XGBoost zu trainieren?
Kann ich das überhaupt implementieren?