Die Berücksichtigung der Multikollinearität ist bei der Regressionsanalyse wichtig, da sie im Extremfall direkt davon abhängt , ob Ihre Koeffizienten in den Daten eindeutig identifiziert sind oder nicht. In weniger schweren Fällen kann dies Ihre Koeffizientenschätzungen beeinträchtigen. Kleine Änderungen der für die Schätzung verwendeten Daten können zu schwankenden geschätzten Koeffizienten führen. Dies kann unter dem Gesichtspunkt der Schlussfolgerung problematisch sein: Wenn zwei Variablen stark korreliert sind, können Erhöhungen in einer Variablen durch Verminderungen in einer anderen Variablen ausgeglichen werden, sodass der kombinierte Effekt darin besteht, sich gegenseitig zu negieren. Bei mehr als zwei Variablen kann der Effekt noch subtiler sein. Wenn die Vorhersagen jedoch stabil sind, reicht dies häufig für maschinelles Lernen aus.
Überlegen Sie, warum wir in einem Regressionskontext regulieren: Wir müssen das Modell einschränken, damit es nicht zu flexibel ist. Durch Anwenden der richtigen Menge an Regularisierung wird die Tendenz für eine größere Verringerung der Varianz geringfügig erhöht. Das klassische Beispiel hierfür ist das Hinzufügen von Polynomtermen und Interaktionseffekten zu einer Regression: Im entarteten Fall interpoliert die Vorhersagegleichung Datenpunkte, ist aber wahrscheinlich schrecklich, wenn versucht wird, die Werte von unsichtbaren Datenpunkten vorherzusagen. Das Verkleinern dieser Koeffizienten wird wahrscheinlich einige dieser Koeffizienten minimieren oder vollständig eliminieren und die Generalisierung verbessern.
In einer zufälligen Gesamtstruktur kann jedoch anhand der Anzahl der Variablen, die bei jeder Aufteilung abgetastet werden, ein Regularisierungsparameter festgestellt werden: Je größer die Aufteilung, mtry
desto besser sind die Aufteilungen (es stehen mehr Funktionen zur Auswahl; einige sind besser als andere) erhöht die Korrelation der Bäume untereinander und mindert in gewisser Weise den Diversifikationseffekt der Schätzung mehrerer Bäume. Dieses Dilemma zwingt dazu, das richtige Gleichgewicht zu finden, was normalerweise durch gegenseitige Validierung erreicht wird. Wichtig ist, dass im Gegensatz zu einer Regressionsanalyse kein Teil des zufälligen Gesamtstrukturmodells durch hochkollineare Variablen beeinträchtigt wird: Selbst wenn zwei der Variablen dieselbe Reinheit des untergeordneten Knotens aufweisen, können Sie nur eine auswählen, ohne die Qualität des Ergebnisses zu beeinträchtigen.
CNNBeobachtungen auf uneingeschränkte Weise ergeben immer ein perfektes Modell der Testdaten - und wir schließen den Kreis zurück zum Szenario Kamm / LASSO / elastische Netzregression, in dem die Modellflexibilität eingeschränkt ist, um ein allzu optimistisches Modell zu überprüfen. Eine Überprüfung der KKT-Bedingungen des SVM-Problems zeigt, dass die SVM-Lösung einzigartig ist, sodass wir uns nicht um die Identifizierungsprobleme kümmern müssen, die im Regressionsfall aufgetreten sind.
Betrachten Sie abschließend die tatsächlichen Auswirkungen der Multikollinearität. Es ändert nicht die Vorhersagekraft des Modells (zumindest nicht die Trainingsdaten), aber es stimmt nicht mit unseren Koeffizientenschätzungen überein. In den meisten ML-Anwendungen interessieren uns die Koeffizienten nichtNur der Verlust unserer Modellvorhersagen. In diesem Sinne beantwortet die Überprüfung von VIF keine Folgefrage. (Wenn jedoch eine geringfügige Änderung der Daten eine große Schwankung der Koeffizienten verursacht [ein klassisches Symptom für Multikollinearität], kann dies auch die Vorhersagen ändern. In diesem Fall ist dies wichtig - aber all dies [wir hoffen!] Ist charakterisiert, wenn wir Führen Sie eine Kreuzvalidierung durch, die ohnehin Teil des Modellierungsprozesses ist.) Eine Regression lässt sich leichter interpretieren, aber für einige Aufgaben ist die Interpretation möglicherweise nicht das wichtigste Ziel.