Bei der Codierung kategorialer Merkmale für die lineare Regression gilt die Regel: Die Anzahl der Dummies sollte eins weniger sein als die Gesamtzahl der Ebenen (um Kollinearität zu vermeiden).
Gibt es eine ähnliche Regel für Entscheidungsbäume (eingesackt, verstärkt)? Ich frage dies, weil eine Standardpraxis in Python darin zu bestehen scheint, n
Ebenen in n
Dummies (sklearns ' OneHotEncoder
oder Pandas' pd.get_dummies
) zu erweitern, was mir suboptimal erscheint.
Was würden Sie als Best Practices für die Codierung kategorialer Funktionen für Entscheidungsbäume vorschlagen?
randomForest
automatisch codiert werden, sollte ich mich fürn
Dummies entscheiden, da Kollinearität für RF kein Problem darstellt.