Ich habe versucht, Feature-Wichtigkeiten aus zufälligen Wäldern zu verwenden, um eine empirische Feature-Auswahl für ein Regressionsproblem durchzuführen, bei dem alle Features kategorisch sind und viele von ihnen viele Ebenen haben (in der Größenordnung von 100-1000). Da bei der One-Hot-Codierung für jede Ebene eine Dummy-Variable erstellt wird, gelten die Feature-Wichtigkeiten für jede Ebene und nicht für jedes Feature (Spalte). Was ist ein guter Weg, um diese Funktionsbedeutungen zusammenzufassen?
Ich habe darüber nachgedacht, die durchschnittliche Bedeutung für alle Ebenen eines Features zu summieren oder zu ermitteln (wahrscheinlich wird die erstere auf Features mit mehr Ebenen ausgerichtet sein). Gibt es Referenzen zu diesem Thema?
Was kann man noch tun, um die Anzahl der Funktionen zu verringern? Ich bin mir der Gruppe Lasso bewusst, konnte nichts leichtes zum Scikit-Lernen finden.