Bei der Codierung kategorialer Merkmale für die lineare Regression gilt die Regel: Die Anzahl der Dummies sollte eins weniger sein als die Gesamtzahl der Ebenen (um Kollinearität zu vermeiden).
Gibt es eine ähnliche Regel für Entscheidungsbäume (eingesackt, verstärkt)? Ich frage dies, weil eine Standardpraxis in Python darin zu bestehen scheint, nEbenen in nDummies (sklearns ' OneHotEncoderoder Pandas' pd.get_dummies) zu erweitern, was mir suboptimal erscheint.
Was würden Sie als Best Practices für die Codierung kategorialer Funktionen für Entscheidungsbäume vorschlagen?
randomForestautomatisch codiert werden, sollte ich mich fürnDummies entscheiden, da Kollinearität für RF kein Problem darstellt.