Warum wird Multikollinearität in der modernen Statistik / im maschinellen Lernen nicht geprüft?


44

In der traditionellen Statistik wird beim Erstellen eines Modells die Multikollinearität mithilfe von Methoden wie Schätzungen des Varianzinflationsfaktors (VIF) überprüft. Beim maschinellen Lernen wird jedoch stattdessen die Regularisierung für die Featureauswahl verwendet, und es scheint nicht zu prüfen, ob Features korreliert sind überhaupt. Warum machen wir das?

Antworten:


51

Die Berücksichtigung der Multikollinearität ist bei der Regressionsanalyse wichtig, da sie im Extremfall direkt davon abhängt , ob Ihre Koeffizienten in den Daten eindeutig identifiziert sind oder nicht. In weniger schweren Fällen kann dies Ihre Koeffizientenschätzungen beeinträchtigen. Kleine Änderungen der für die Schätzung verwendeten Daten können zu schwankenden geschätzten Koeffizienten führen. Dies kann unter dem Gesichtspunkt der Schlussfolgerung problematisch sein: Wenn zwei Variablen stark korreliert sind, können Erhöhungen in einer Variablen durch Verminderungen in einer anderen Variablen ausgeglichen werden, sodass der kombinierte Effekt darin besteht, sich gegenseitig zu negieren. Bei mehr als zwei Variablen kann der Effekt noch subtiler sein. Wenn die Vorhersagen jedoch stabil sind, reicht dies häufig für maschinelles Lernen aus.

Überlegen Sie, warum wir in einem Regressionskontext regulieren: Wir müssen das Modell einschränken, damit es nicht zu flexibel ist. Durch Anwenden der richtigen Menge an Regularisierung wird die Tendenz für eine größere Verringerung der Varianz geringfügig erhöht. Das klassische Beispiel hierfür ist das Hinzufügen von Polynomtermen und Interaktionseffekten zu einer Regression: Im entarteten Fall interpoliert die Vorhersagegleichung Datenpunkte, ist aber wahrscheinlich schrecklich, wenn versucht wird, die Werte von unsichtbaren Datenpunkten vorherzusagen. Das Verkleinern dieser Koeffizienten wird wahrscheinlich einige dieser Koeffizienten minimieren oder vollständig eliminieren und die Generalisierung verbessern.

In einer zufälligen Gesamtstruktur kann jedoch anhand der Anzahl der Variablen, die bei jeder Aufteilung abgetastet werden, ein Regularisierungsparameter festgestellt werden: Je größer die Aufteilung, mtrydesto besser sind die Aufteilungen (es stehen mehr Funktionen zur Auswahl; einige sind besser als andere) erhöht die Korrelation der Bäume untereinander und mindert in gewisser Weise den Diversifikationseffekt der Schätzung mehrerer Bäume. Dieses Dilemma zwingt dazu, das richtige Gleichgewicht zu finden, was normalerweise durch gegenseitige Validierung erreicht wird. Wichtig ist, dass im Gegensatz zu einer Regressionsanalyse kein Teil des zufälligen Gesamtstrukturmodells durch hochkollineare Variablen beeinträchtigt wird: Selbst wenn zwei der Variablen dieselbe Reinheit des untergeordneten Knotens aufweisen, können Sie nur eine auswählen, ohne die Qualität des Ergebnisses zu beeinträchtigen.

CNNBeobachtungen auf uneingeschränkte Weise ergeben immer ein perfektes Modell der Testdaten - und wir schließen den Kreis zurück zum Szenario Kamm / LASSO / elastische Netzregression, in dem die Modellflexibilität eingeschränkt ist, um ein allzu optimistisches Modell zu überprüfen. Eine Überprüfung der KKT-Bedingungen des SVM-Problems zeigt, dass die SVM-Lösung einzigartig ist, sodass wir uns nicht um die Identifizierungsprobleme kümmern müssen, die im Regressionsfall aufgetreten sind.

Betrachten Sie abschließend die tatsächlichen Auswirkungen der Multikollinearität. Es ändert nicht die Vorhersagekraft des Modells (zumindest nicht die Trainingsdaten), aber es stimmt nicht mit unseren Koeffizientenschätzungen überein. In den meisten ML-Anwendungen interessieren uns die Koeffizienten nichtNur der Verlust unserer Modellvorhersagen. In diesem Sinne beantwortet die Überprüfung von VIF keine Folgefrage. (Wenn jedoch eine geringfügige Änderung der Daten eine große Schwankung der Koeffizienten verursacht [ein klassisches Symptom für Multikollinearität], kann dies auch die Vorhersagen ändern. In diesem Fall ist dies wichtig - aber all dies [wir hoffen!] Ist charakterisiert, wenn wir Führen Sie eine Kreuzvalidierung durch, die ohnehin Teil des Modellierungsprozesses ist.) Eine Regression lässt sich leichter interpretieren, aber für einige Aufgaben ist die Interpretation möglicherweise nicht das wichtigste Ziel.


1
Bei der Modellierung der kausalen Regression unter Verwendung von Techniken wie Neigungsbewertung oder Regressionsanpassung kann die Kollinearität selbst für die Vorhersage ein Problem sein, da normalerweise das Ziel darin besteht, ein Modell entweder ausschließlich auf eine Kontroll- / nicht exponierte Gruppe abzustimmen und dann die Ergebnisse unter Verwendung dieses Modells auf einem Experiment abzuschätzen Gruppe oder kombinieren Sie die beiden Gruppen, verwenden Sie jedoch eine Indikatorvariable, um den Effekt zu messen, unter Berücksichtigung anderer Faktoren, in der Versuchsgruppe zu sein.
ely

1
Wenn die Kollinearität zu Fehlern in den Koeffizienten führt, funktioniert die erweiterte Regression auf die Versuchsgruppe nicht. Ebenso könnte die Koeffizientenschätzung für die Indikatorvariable, die eine Behandlung erhalten hat, verworfen werden, wenn eine einzelne Regression über beide Teilstichproben durchgeführt wird. Moderne Techniken des maschinellen Lernens werden normalerweise nicht verwendet, um diese Arten von Kausalitätsproblemen zu analysieren, und daher musste sich niemand mit dem Bedarf an Werkzeugen auseinandersetzen, um dies zu berücksichtigen.
ely

@ely In Ihrem ersten Beispiel ist die Colinearität (bei den Kovariaten nicht die Behandlung) kein Problem, da das Ziel wiederum die Vorhersage der kontrafaktischen Ergebnisse ist und die Colinearität kein Problem bei der Vorhersage ist. Auch moderne ML-Methoden werden häufig in der kausalen Folgerung eingesetzt; Verallgemeinerte verstärkte Modellierung und zufällige Gesamtstrukturen werden häufig zum Schätzen von Propensitätsbewertungen verwendet, und TMLE verwendet ML-Methoden, um die kontrafaktischen Ergebnisse zu unterstellen. Ich würde behaupten, eine Stärke der kausalen Methoden ist, dass Kolinearität für sie normalerweise kein Problem darstellt.
Noah

@Noah In der Regel ist es die Interpretation des Belichtungskoeffizienten (und auch die Interpretation der anderen Effektschätzungen), und nicht nur die Genauigkeit der Rohvorhersage. Mir ist klar, dass mein Kommentar dies nicht klar gemacht hat, aber deshalb ist es ein Problem. Wenn die allgemeine Vorhersage gut ist, aber nicht darauf beruht, dass sie tatsächlich mit dem für die Exposition geschätzten Koeffizienten in Beziehung steht, ist dies normalerweise ein unerwünschtes Modell für die kausale Folgerung.
ely

21

Der Grund dafür ist, dass sich die Ziele der "traditionellen Statistik" von vielen Techniken des maschinellen Lernens unterscheiden.

Unter "traditioneller Statistik" verstehe ich die Regression und ihre Varianten. In der Regression versuchen wir zu verstehen, welche Auswirkungen die unabhängigen Variablen auf die abhängige Variable haben. Wenn es eine starke Multikollinearität gibt, ist dies einfach nicht möglich. Kein Algorithmus wird dies beheben. Wenn Fleiß mit dem Klassenbesuch und den Noten korreliert, können wir nicht wissen, warum die Noten wirklich steigen - Anwesenheit oder Fleiß.

Bei Techniken des maschinellen Lernens, die sich auf die Vorhersagegenauigkeit konzentrieren, geht es uns jedoch nur darum, wie wir einen Satz von Variablen verwenden können, um einen anderen Satz vorherzusagen. Wir kümmern uns nicht darum, welche Auswirkungen diese Variablen aufeinander haben.

Grundsätzlich ist die Tatsache, dass wir beim maschinellen Lernen nicht auf Multikollinearität prüfen, keine Konsequenz des Algorithmus, sondern eine Konsequenz des Ziels. Sie können sehen , durch diese starke Kollinearität zwischen Variablen zu bemerken , nicht nicht verletzt die Vorhersagegenauigkeit von Regressionsverfahren.


11

Hier scheint die Annahme zu bestehen, dass die Nichtprüfung auf Kollinearität eine vernünftige oder sogar bewährte Vorgehensweise ist. Dies scheint fehlerhaft zu sein. Wenn Sie beispielsweise einen Datensatz mit vielen Prädiktoren auf perfekte Kollinearität prüfen, werden Sie feststellen, ob zwei Variablen tatsächlich dasselbe sind, z. B. Geburtsdatum und Alter (Beispiel aus Dormann et al. (2013), Ecography , 36 , 1, S. 27–46) ). Ich habe auch manchmal das Problem von perfekt korrelierten Prädiktoren bei Kaggle-Wettbewerben gesehen, bei denen Wettbewerber im Forum versuchen, potenzielle anonymisierte Prädiktoren zu eliminieren (dh das Prädiktorlabel ist verborgen, ein häufiges Problem bei Kaggle- und Kaggle-ähnlichen Wettbewerben).

Es gibt auch noch eine Aktivität im maschinellen Lernen zum Auswählen von Prädiktoren - das Identifizieren von stark korrelierten Prädiktoren kann es dem Arbeiter ermöglichen, Prädiktoren zu finden, die Proxies für eine andere zugrunde liegende (verborgene) Variable sind, und letztendlich eine Variable zu finden, die die latente Variable am besten darstellt oder Alternativ können Sie Variablen vorschlagen, die kombiniert werden können (z. B. über PCA).

Daher würde ich vorschlagen, dass, obwohl Methoden des maschinellen Lernens in der Regel (oder zumindest häufig) als robust gegenüber korrelierten Prädiktoren ausgelegt wurden, das Verständnis des Korrelationsgrades von Prädiktoren häufig ein nützlicher Schritt für die Erstellung eines robusten und genauen Modells ist und ist eine nützliche Hilfe, um ein optimiertes Modell zu erhalten.


9

Das Hauptproblem bei Multikollinearität besteht darin, dass die Koeffizienten (Betas) unabhängiger Variablen durcheinander gebracht werden. Aus diesem Grund ist es ein ernstes Problem, wenn Sie die Beziehungen zwischen Variablen untersuchen, die Kausalität ermitteln usw.

Wenn Sie das Phänomen jedoch nicht so sehr verstehen möchten, sondern sich ausschließlich auf Vorhersage und Prognose konzentrieren, ist Multikollinearität weniger ein Problem. Zumindest denken die Leute darüber.

Ich spreche hier nicht von perfekter Multikollinearität , bei der es sich um ein technisches Problem oder ein Identifikationsproblem handelt. Technisch bedeutet dies einfach, dass die Entwurfsmatrix zur Singularität führt und die Lösung nicht definiert ist.


4
Selbst bei perfekter Kollinearität sind die Vorhersagen gut definiert.
whuber

@whuber, wenn Sie OLS verwenden, wird das stat-Paket wahrscheinlich einen Fehler auslösen, da es die Matrix nicht invertieren kann. Die Schlauen können einen der unabhängigen Vars fallen lassen und trotzdem weitermachen.
Aksakal

2
Wenn Sie die verallgemeinerte Inverse verwenden, ist diese Singularität kein Problem.
Analyst

1
Ich folge nicht Ihrer Logik, Aksakal: Versuchen Sie vorzuschlagen, dass sich Techniken des maschinellen Lernens von statistischen Techniken dadurch unterscheiden, dass die ersteren irgendwie keine Probleme mit Matrizen mit reduziertem Rang haben? Es ist eine interessante Idee zu erkunden.
whuber

1
@user, die unabhängige Variable, ist fast immer korreliert und normalerweise in Ordnung. Nur eine perfekte Multikollinearität führt zu einem Rangmangel. Multikollinearität bezieht sich auf sehr starke Korrelationen und ist im Allgemeinen nicht wünschenswert, aber wie ich zuvor schrieb, ist es in vielen Fällen ein harmloses Problem.
Aksakal,

7

Die Regularisierung beim maschinellen Lernen stabilisiert die Regressionskoeffizienten, so dass zumindest der Effekt der Multikollinearität gezähmt wird. Noch wichtiger ist jedoch, dass das Multikollinearitäts- "Problem" gar kein so großes Problem war, wenn Sie eine Vorhersage anstreben (welche maschinellen Lernenden es häufig sind). Dies ist ein Problem, wenn Sie einen bestimmten Koeffizienten schätzen müssen und nicht über die erforderlichen Informationen verfügen.

Auch meine Antwort auf " Wann wählt LASSO korrelierte Prädiktoren aus " könnte für Sie hilfreich sein.


1

Ich denke, dass Multikollinearität beim maschinellen Lernen überprüft werden sollte. Hier ist der Grund: Angenommen, Sie haben zwei stark korrelierte Merkmale X und Y in unserem Datensatz. Dies bedeutet, dass die Antwortebene nicht zuverlässig ist (eine kleine Änderung der Daten kann drastische Auswirkungen auf die Ausrichtung der Antwortebene haben). Was bedeutet, dass die Vorhersagen des Modells für Daten weit entfernt sindvon der Linie, wo X und Y zu fallen neigen, sind nicht zuverlässig. Wenn Sie Ihr Modell für Vorhersagen für solche Punkte verwenden, werden die Vorhersagen wahrscheinlich sehr schlecht sein. Mit anderen Worten, wenn Sie zwei stark korrelierte Merkmale als Modell haben, lernen Sie eine Ebene, in der die Daten zumeist in einer Linie liegen. Daher ist es wichtig, stark korrelierte Features aus Ihren Daten zu entfernen, um unzuverlässige Modelle und fehlerhafte Vorhersagen zu vermeiden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.