Werden nicht stark korrelierte Variablen in zufälliger Gesamtstruktur Genauigkeit und Feature-Auswahl verzerren?

32

Nach meinem Verständnis verursachen stark korrelierte Variablen keine Multikollinearitätsprobleme im Random Forest-Modell (Bitte korrigieren Sie mich, wenn ich falsch liege). Wenn ich jedoch zu viele Variablen habe, die ähnliche Informationen enthalten, wird das Modell in dieser Menge zu stark gewichtet als in den anderen?

Beispielsweise gibt es zwei Informationssätze (A, B) mit derselben Vorhersagekraft. Die Variablen , , ... enthalten alle Informationen A, und nur Y enthält Informationen B. Wachsen bei Stichprobenvariablen die meisten Bäume auf Informationen A, sodass die Informationen B nicht vollständig erfasst werden? $X_1$ $X_2$ $X_{1000}$

random-forest multicollinearity ensemble

— Yoki
quelle

19

Das ist richtig, aber deshalb würde es in den meisten Unterabtastungen, in denen die Variable Y verfügbar war, die bestmögliche Aufteilung ergeben.

Sie können versuchen, mtry zu erhöhen, um sicherzustellen, dass dies häufiger vorkommt.

Sie können entweder rekursives Korrelationsbereinigen versuchen, dh eine von zwei Variablen entfernen, die zusammen die höchste Korrelation aufweisen. Eine sinnvolle Schwelle, um dieses Beschneiden zu stoppen, könnte sein, dass ein beliebiges Korrelationspaar (Pearson) niedriger als $R^2<.7$

Sie können versuchen, rekursives Bereinigen mit variabler Wichtigkeit durchzuführen, das heißt, Sie entfernen z. B. 20% mit der niedrigsten Wichtigkeit der Variablen. Versuchen Sie zB rfcv aus dem randomForest-Paket.

Möglicherweise versuchen Sie eine Zerlegung / Aggregation Ihrer redundanten Variablen.

— Soren Havelund Welling
quelle

3

In einigen Quellen habe ich multicollinearityKEINE Auswirkung auf das zufällige Waldmodell gesehen. In der am besten bewerteten Antwort heißt es hier beispielsweise, dass "kein Teil des Zufallsmodell der Gesamtstruktur durch hochkollineare Variablen geschädigt wird". Hat dies irgendeine Gültigkeit?

— Hunle

5

Ich denke, Sie lesen das NEIN zu wörtlich. RF-Modelle verarbeiten ziemlich gut korrelierte / redundante Variablen, ja. Dies bedeutet jedoch nicht, dass Ihr Modell notwendigerweise von Horten aus nicht verwandten oder vollständig redundanten Variablen (z. B. linearen Rekombinationen) profitiert. Es stürzt auch nicht ab. Ich befürworte nur eine bescheidene Variablenauswahl, um eine bescheidene Verbesserung der übergreifend validierten Modellleistung zu erwarten.

— Soren Havelund Welling

24

Alter Thread, aber ich stimme einer pauschalen Aussage nicht zu, dass Kollinearität bei zufälligen Gesamtstrukturmodellen kein Problem darstellt. Wenn das Dataset zwei (oder mehr) korrelierte Merkmale aufweist, kann aus Sicht des Modells jedes dieser korrelierten Merkmale als Prädiktor verwendet werden, ohne dass eines gegenüber dem anderen konkret bevorzugt wird.

Sobald jedoch eines von ihnen verwendet wird, wird die Wichtigkeit anderer signifikant verringert, da die Verunreinigung, die sie entfernen können, bereits durch das erste Merkmal entfernt wird.

Infolgedessen haben sie eine geringere gemeldete Bedeutung. Dies ist kein Problem, wenn wir die Feature-Auswahl verwenden möchten, um die Überanpassung zu reduzieren, da es sinnvoll ist, Features zu entfernen, die zumeist von anderen Features dupliziert werden. Bei der Interpretation der Daten kann es jedoch zu der falschen Schlussfolgerung kommen, dass es sich um eine der Variablen handelt ein starker Prädiktor, während die anderen in der gleichen Gruppe unwichtig sind, während sie tatsächlich in Bezug auf ihre Beziehung zur Antwortvariablen sehr eng sind.

Die Auswirkung dieses Phänomens wird durch die zufällige Auswahl von Merkmalen bei jeder Knotenerstellung etwas verringert, im Allgemeinen wird die Auswirkung jedoch nicht vollständig beseitigt.

Die oben meist von hier aus beschnitten: Auswahl guter Features

— GDB
quelle

3

Dies ist mein Artikel zur Featureauswahl mit HF, da die Variable Wichtigkeit häufig als Metrik verwendet wird. Seit zwei Jahren bin ich skeptischer gegenüber der Featureauswahl geworden -Validierung, wenn nicht innerhalb einer ordnungsgemäßen äußeren Kreuzvalidierungsschleife durchgeführt. Wenn es richtig gemacht wird, sehe ich oft keine oder nur eine geringe Optimierung der Vorhersageleistung. Jetzt verwende ich die Featureauswahl hauptsächlich, um Prognosegeräte in der Produktion zu vereinfachen oder ein endgültiges Modell transparenter zu machen.

— Soren Havelund Welling

@SorenHavelundWelling - Sie sagen, dass "Merkmalsauswahl zu einer überoptimistischen Kreuzvalidierung führt, wenn sie nicht innerhalb einer ordnungsgemäßen äußeren Kreuzvalidierungsschleife erfolgt". Können Sie das erklären oder sich auf eine Quelle beziehen, die das erklärt? Es geht gegen alles, was ich bisher gelesen habe ...

— Jack Fleeting

stats.stackexchange.com/questions/27750/…

— Soren Havelund Welling