Meine Frage: Warum werden in zufälligen Gesamtstrukturen zufällige Teilmengen von Features für die Aufteilung auf Knotenebene in jedem Baum berücksichtigt, anstatt auf Baumebene ?
Hintergrund: Dies ist so etwas wie eine historische Frage. Tin Kam Ho veröffentlichte diesen Aufsatz über die Konstruktion von "Entscheidungswäldern", indem er 1998 zufällig eine Teilmenge von Merkmalen auswählte, die für das Wachstum jedes Baumes verwendet werden sollen . Einige Jahre später, 2001, veröffentlichte Leo Breiman seinen wegweisenden Aufsatz " Random Forest" , in dem die Teilmenge der Merkmale zufällig ist wird an jedem Knoten in jedem Baum ausgewählt, nicht an jedem Baum. Während Breiman Ho zitierte, erklärte er den Übergang von der Baumebene zur Knotenebene nicht speziell für die zufällige Merkmalsauswahl.
Ich frage mich, was genau diese Entwicklung motiviert hat. Es scheint, dass das Auswählen der Merkmalsuntermenge auf der Baumebene immer noch die gewünschte Dekorrelation der Bäume bewirken würde.
Meine Theorie: Ich habe dies nicht anderswo artikuliert gesehen, aber es scheint, dass die Methode des zufälligen Unterraums weniger effizient wäre, um Schätzungen der Merkmalswichtigkeit zu erhalten. Um Schätzungen von variabler Wichtigkeit zu erhalten, werden die Merkmale für jeden Baum einzeln zufällig permutiert, und die Zunahme der Fehlklassifizierung oder der Fehlerzunahme für die Out-of-Bag-Beobachtungen wird aufgezeichnet. Die Variablen, für die die Fehlklassifizierung oder Fehlerzunahme, die sich aus dieser zufälligen Permutation ergibt, hoch ist, sind diejenigen mit der größten Bedeutung.
Was ich bisher gesehen habe: Bisher habe ich Breimans und Ho's Artikel gelesen und online nach Vergleichen der Methoden gesucht, ohne eine endgültige Antwort gefunden zu haben. Beachten Sie, dass zuvor eine ähnliche Frage gestellt wurde. Diese Frage geht ein Stück weiter, indem ich meine Spekulationen / Arbeit an einer möglichen Lösung einbeziehe. Ich würde mich für Antworten, relevante Zitate oder Simulationsstudien interessieren, die die beiden Ansätze vergleichen. Wenn es keine gibt, plane ich, meine eigene Simulation durchzuführen, um die beiden Methoden zu vergleichen.