Wie viele Features sollen mit Random Forests getestet werden?

Auf der Wikipedia-Seite, die "Die Elemente des statistischen Lernens" zitiert, heißt es:

Für ein Klassifizierungsproblem mit Merkmalen gilt in der $p$ -Funktionen werden in jeder Aufteilung verwendet. $\lfloor \sqrt{p}\rfloor$

Ich verstehe, dass dies eine ziemlich gut fundierte Vermutung ist und wahrscheinlich durch empirische Beweise bestätigt wurde, aber gibt es andere Gründe, warum man die Quadratwurzel ziehen würde? Geschieht dort ein statistisches Phänomen?

Hilft dies irgendwie dabei, die Varianz der Fehler zu verringern?

Gilt das auch für Regression und Klassifikation?

— Valentin Calomme
quelle

Ich denke, in der Originalarbeit schlagen sie vor, ) zu verwenden, aber so oder so lautet die Idee wie folgt: $\log_2(N +1$

Die Anzahl der zufällig ausgewählten Merkmale kann den Generalisierungsfehler auf zwei Arten beeinflussen: Die Auswahl vieler Merkmale erhöht die Stärke der einzelnen Bäume, während die Verringerung der Anzahl der Merkmale zu einer geringeren Korrelation zwischen den Bäumen führt und die Stärke des Gesamtwaldes erhöht.

Interessant ist, dass die Autoren von Random Forests (pdf) einen empirischen Unterschied zwischen Klassifikation und Regression feststellen:

Ein interessanter Unterschied zwischen Regression und Klassifikation besteht darin, dass die Korrelation mit zunehmender Anzahl verwendeter Merkmale recht langsam zunimmt.

$N/3$ $\sqrt N$

$\sqrt N$ $\log N$

Der Zwischenbereich ist normalerweise groß. In diesem Bereich nimmt die Korrelation mit zunehmender Anzahl von Merkmalen zu, aber PE * (Baum) kompensiert durch Verringern.

(PE * ist der Generalisierungsfehler)

Wie sie in Elementen des statistischen Lernens sagen:

In der Praxis hängen die besten Werte für diese Parameter vom Problem ab und sollten als Optimierungsparameter behandelt werden.

Eine Sache, von der Ihr Problem abhängen kann, ist die Anzahl der kategorialen Variablen. Wenn Sie viele kategoriale Variablen haben, die als Dummy-Variablen codiert sind, ist es normalerweise sinnvoll, den Parameter zu erhöhen. Nochmals aus dem Random Forests-Artikel:

$int(log_2M+1)$

— oW_
quelle

Danke, das ist eine sehr nützliche Antwort. In der Tat dachte ich, dass es etwas mit der Stärke eines jeden Baumes im Vergleich zur Stärke des Waldes als Ganzes zu tun hat. Und in der Tat sehr interessant, dass es einen solchen Unterschied zwischen Regression und Klassifikation gibt. Vielen Dank, dass Sie das Originalpapier verlinkt haben. Ich habe versucht, solche Papiere für viele Techniken zu sammeln.

— Valentin Calomme