Was ist in einer multiplen linearen Regression mit stark korrelierten Regressoren die beste Strategie? Ist es ein legitimer Ansatz, das Produkt aller korrelierten Regressoren hinzuzufügen?
Was ist in einer multiplen linearen Regression mit stark korrelierten Regressoren die beste Strategie? Ist es ein legitimer Ansatz, das Produkt aller korrelierten Regressoren hinzuzufügen?
Antworten:
Hauptkomponenten sind sehr sinnvoll ... mathematisch. Allerdings würde ich in diesem Fall nicht einfach einen mathematischen Trick anwenden und hoffen, dass ich nicht über mein Problem nachdenken muss .
Ich würde empfehlen, ein wenig darüber nachzudenken, welche Art von Prädiktoren ich habe, was die unabhängige Variable ist, warum meine Prädiktoren korreliert sind, ob einige meiner Prädiktoren tatsächlich dieselbe zugrunde liegende Realität messen (wenn ja, ob ich nur mit a arbeiten kann) Einzelmessung und welcher meiner Prädiktoren wäre dafür am besten geeignet), wofür ich die Analyse durchführe - wenn ich nicht an Schlussfolgerungen interessiert bin, sondern nur an Prognosen, dann könnte ich die Dinge tatsächlich so lassen, wie sie sind, solange sie in der Zukunft liegen Prädiktorwerte ähneln denen der Vergangenheit.
Sie können Hauptkomponenten oder Gratregression verwenden, um dieses Problem zu beheben. Wenn Sie andererseits zwei Variablen haben, die stark genug korreliert sind, um Probleme mit der Parameterschätzung zu verursachen, können Sie mit ziemlicher Sicherheit eine der beiden Variablen verwerfen, ohne viel an Vorhersage zu verlieren - da die beiden Variablen dieselben Informationen enthalten . Das funktioniert natürlich nur, wenn das Problem auf zwei stark korrelierte unabhängige Personen zurückzuführen ist. Wenn das Problem mehr als zwei Variablen umfasst, die nahezu kollinear sind (von denen zwei möglicherweise nur mäßige Korrelationen aufweisen), benötigen Sie wahrscheinlich eine der anderen Methoden.
Hier ist ein weiterer Gedanke, der von Stephans Antwort inspiriert ist :
Wenn einige Ihrer korrelierten Regressoren bedeutungsvoll miteinander verwandt sind (z. B. unterschiedliche Intelligenzmaße, z. B. verbal, mathematisch usw.), können Sie eine einzelne Variable erstellen, die dieselbe Variable mit einer der folgenden Techniken misst:
Summe der Regressoren (angemessen, wenn die Regressoren Bestandteile eines Ganzen sind, z. B. verbaler IQ + mathematischer IQ = Gesamt-IQ)
Durchschnitt der Regressoren (angemessen, wenn die Regressoren dasselbe zugrunde liegende Konstrukt messen, z. B. Größe des linken Schuhs, Größe des rechten Schuhs, um die Länge der Füße zu messen)
Faktoranalyse (um Messfehler zu berücksichtigen und einen latenten Faktor zu extrahieren)
Sie können dann alle korrelierten Regressoren löschen und durch die eine Variable ersetzen, die aus der obigen Analyse hervorgeht.
Ich wollte fast dasselbe sagen wie Stephan Kolassa (habe also seine Antwort positiv bewertet). Ich möchte nur hinzufügen, dass Multikollinearität manchmal auf die Verwendung umfangreicher Variablen zurückzuführen ist, die alle in hohem Maße mit einem gewissen Maß an Größe korrelieren, und dass die Dinge durch die Verwendung intensiver Variablen verbessert werden können, dh indem alles durch ein gewisses Maß an Größe geteilt wird. Wenn Ihre Einheiten beispielsweise Länder sind, können Sie je nach Kontext nach Bevölkerung, Fläche oder BSP aufteilen.
Oh - und um den zweiten Teil der ursprünglichen Frage zu beantworten: Ich kann mir keine Situation vorstellen, wenn ich das Produkt aller korrelierten Regressoren addiere, wäre das eine gute Idee. Wie würde es helfen? Was würde es bedeuten?
Ich bin kein Experte in diesem Bereich, aber mein erster Gedanke wäre, eine Hauptkomponentenanalyse für die Prädiktorvariablen durchzuführen und dann die resultierenden Hauptkomponenten zu verwenden, um Ihre abhängige Variable vorherzusagen.
Dies ist kein Mittel, aber definitiv ein Schritt in die richtige Richtung.