Nach meinem Verständnis verursachen stark korrelierte Variablen keine Multikollinearitätsprobleme im Random Forest-Modell (Bitte korrigieren Sie mich, wenn ich falsch liege). Wenn ich jedoch zu viele Variablen habe, die ähnliche Informationen enthalten, wird das Modell in dieser Menge zu stark gewichtet als in den anderen?
Beispielsweise gibt es zwei Informationssätze (A, B) mit derselben Vorhersagekraft. Die Variablen , , ... enthalten alle Informationen A, und nur Y enthält Informationen B. Wachsen bei Stichprobenvariablen die meisten Bäume auf Informationen A, sodass die Informationen B nicht vollständig erfasst werden?
multicollinearity
KEINE Auswirkung auf das zufällige Waldmodell gesehen. In der am besten bewerteten Antwort heißt es hier beispielsweise, dass "kein Teil des Zufallsmodell der Gesamtstruktur durch hochkollineare Variablen geschädigt wird". Hat dies irgendeine Gültigkeit?