Ich habe einen Verweis in einem Artikel gefunden, der wie folgt lautet:
Nach Tabachnick & Fidell (1996) sollten die unabhängigen Variablen mit einer bivariaten Korrelation von mehr als 0,70 nicht in die multiple Regressionsanalyse einbezogen werden.
Problem: Ich habe in einem Design mit mehreren Regressionen 3 Variablen verwendet, die> .80 korrelierten, VIFs bei ca. .2 - .3, Toleranz ~ 4-5. Ich kann keine davon ausschließen (wichtige Prädiktoren und Ergebnisse). Wenn ich das Ergebnis der beiden Prädiktoren, die bei 0,80 korrelierten, zurückführte, blieben beide signifikant, wobei jede wichtige Varianzen vorhersagte, und dieselben beiden Variablen haben den größten Teil und semipartielle Korrelationskoeffizienten unter allen 10 eingeschlossenen Variablen (5 Kontrollen).
Frage: Ist mein Modell trotz hoher Korrelationen gültig? Referenzen sehr willkommen!
Danke für die Antworten!
Ich habe Tabachnick und Fidell nicht als Richtlinie verwendet, sondern diese Referenz in einem Artikel gefunden, der sich mit hoher Kollinearität unter Prädiktoren befasst.
Im Grunde habe ich zu wenige Fälle für die Anzahl der Prädiktoren im Modell (viele kategoriale, Dummy-codierte Kontrollvariablen - Alter, Amtszeit, Geschlecht usw.) - 13 Variablen für 72 Fälle. Der Bedingungsindex beträgt ~ 29 mit allen Steuerelementen in und ~ 23 ohne sie (5 Variablen).
Ich kann keine Variablen fallen lassen oder eine faktorielle Analyse verwenden, um sie zu kombinieren, da sie theoretisch für sich genommen Sinn haben. Es ist zu spät, um weitere Daten zu erhalten. Da ich die Analyse in SPSS durchführe, ist es vielleicht am besten, eine Syntax für die Ridge-Regression zu finden (obwohl ich dies vorher noch nicht getan habe und die Interpretation der Ergebnisse für mich neu wäre).
Wenn es darauf ankommt, blieben bei der schrittweisen Regression dieselben zwei stark korrelierten Variablen die einzigen signifikanten Prädiktoren für das Ergebnis.
Und ich verstehe immer noch nicht, ob die Teilkorrelationen, die für jede dieser Variablen hoch sind, eine Erklärung dafür sind, warum ich sie im Modell belassen habe (falls keine Kammregression durchgeführt werden kann).
Würden Sie sagen, dass die "Regressionsdiagnose: Ermittlung einflussreicher Daten und Quellen für Kollinearität / David A. Belsley, Edwin Kuh und Roy E. Welsch, 1980" für das Verständnis der Multikollinearität hilfreich wäre? Oder könnten andere Referenzen nützlich sein?