Was sind die Vorzüge verschiedener Ansätze zur Erkennung von Kollinearität?


11

Ich möchte feststellen, ob Kollinearität ein Problem in meiner OLS-Regression ist. Ich verstehe, dass Varianzinflationsfaktoren und der Zustandsindex zwei häufig verwendete Messgrößen sind, finde es jedoch schwierig, etwas Bestimmtes in Bezug auf die Vorzüge jedes Ansatzes oder die Höhe der Bewertungen zu finden.

Eine prominente Quelle, die angibt, welcher Ansatz zu tun ist und / oder welche Bewertungen angemessen sind, wäre sehr nützlich.

Eine ähnliche Frage wurde gestellt bei "Gibt es einen Grund, ein bestimmtes Maß an Multikollinearität zu bevorzugen?" aber ich bin idealerweise nach einer Referenz, die ich zitieren kann.


4
Denken Sie daran, dass Kollinearität eine Frage des Grades ist. Selbst wenn Sie einen Text finden, der eine schöne, zitierfähige Zahl enthält, sollten Sie ihn nicht als harten Grenzwert für "kein Problem" oder "wir haben ein Problem" behandeln ".
Silverfish

4
@ Silverfish gibt gute Ratschläge. Belsley, Kuh und Welsch betonen auch, dass Kollinearität, selbst wenn sie vorhanden ist, nicht unbedingt schädlich ist: Sie müssen feststellen, ob sie tatsächlich ein Problem für Ihre Analyse verursacht.
whuber

Antworten:


11

Belsley, Kuh und Welsch ist der Text für diese Art von Frage. Sie enthalten eine ausführliche Diskussion älterer Diagnosen in einem Abschnitt mit dem Titel "Historische Perspektive". In Bezug auf VIF schreiben sie

... Wenn wir die übernehmen Daten zentriert wurden und skalierten Einheitslänge zu haben, die Korrelationsmatrix R ist einfach X ' X . ...XRXX

Wir betrachten . Die diagonalen Elemente von R - 1 , das r i i , werden oft als Varianzinflationsfaktoren VIF i bezeichnet , und ihr diagnostischer Wert folgt aus der Beziehung VIF i = 1R1=(XX)1R1riiVIFi wobeiR 2 i der Mehrfachkorrelationskoeffizient vonXi ist, derauf die verbleibenden erklärenden Variablen zurückgegangen ist. Ein hoher VIF zeigt eindeutig einR 2 i nahe der Einheit an und weist daher auf Kollinearität hin. Diese Maßnahme ist daher als allgemeiner Hinweis auf die Kollinearität von Nutzen. Seine Schwächen, wie die vonR, liegen in seiner Unfähigkeit, zwischen mehreren nebeneinander existierenden nahen Abhängigkeiten zu unterscheiden, und im Fehlen einer sinnvollen Grenze, um zwischen Werten von VIF, die als hoch und solchen, die als niedrig angesehen werden können, zu unterscheiden.

VIFi=11Ri2
Ri2XiRi2R

Anstelle der Analyse von (oder R - 1 ) schlägt die BKW eine sorgfältige, kontrollierte Untersuchung der Singularwertzerlegung von X vor . Sie motivieren es, indem sie zeigen, dass das Verhältnis der größten zu den kleinsten Singularwerten die Bedingungszahl von X ist, und zeigen, wie die Bedingungszahl (manchmal enge) Grenzen für die Ausbreitung von Rechenfehlern bei der Berechnung der Regressionsschätzungen bietet. Sie gehen auf eine ungefähre Zersetzung zu versuchen , von der der Parameterschätzungen Varianzen ß iRR1XXβ^iin Komponenten, die den Singularwerten zugeordnet sind. Die Kraft dieser Zerlegung liegt in ihrer Fähigkeit (in vielen Fällen), die Natur der Kollinearität aufzudecken , anstatt nur ihre Anwesenheit anzuzeigen.

Xi1,,Xik

Letztendlich empfiehlt die BKW die Diagnose der Kollinearität mittels

... die folgende doppelte Bedingung:

  1. Ein singulärer Wert, der einen hohen Zustandsindex aufweist und mit dem verbunden ist
  2. Hohe Varianz-Zerlegungs-Anteile für zwei oder mehr geschätzte Regressionskoeffizienten-Varianzen.

Die Anzahl der Bedingungsindizes, die als groß eingestuft werden (z. B. größer als 30X0.5


10
  • R21/(1R2)

    VIFs, wie sie normalerweise implementiert werden, können Sie jedoch nicht über die Kollinearität mit dem Achsenabschnitt informieren, da der Achsenabschnitt normalerweise stillschweigend in diesen "Helfer" -Regressionen enthalten ist. Wenn ein Regressor ein hohes VIF hat, wissen Sie nicht sofort, welche anderen Regressoren für die Kollinearität verantwortlich sind. Sie müssten standardisierte Koeffizienten in den Helfer-Regressionen betrachten.

  • Die Bedingungsindizes und Kollinearitätszerlegungsanteile von Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE Regressionsdiagnostik: Identifizierung einflussreicher Daten und Quellen der Kollinearität. John Wiley & Sons, 1980) sind weitaus schwieriger zu verstehen. Ich habe vor ein paar Jahren damit gearbeitet, aber ich werde nicht versuchen, sie hier zu erklären, ohne eine Auffrischung zu bekommen ;-)

    Diese Diagnose kann erlauben Kollinearität mit dem Schnitt erkennen. Und Sie können die Proportionen der Kollinearitätszerlegung untersuchen, um abzuleiten, welche anderen Regressoren für die Kollinearität eines bestimmten Regressors verantwortlich sind.


Vielen Dank - sehr nützlich - ist Ihnen zufällig ein Zitat für das VIF bekannt, das mehr als 10 Faustregeln enthält? Ich kann es in zahlreichen Wirtschaftsvortragsnotizen finden, aber nichts veröffentlichtes finden, das dies besagt. .
Kyrenia

@kyrenia "größer als 10" ist weit von der einzigen Schwelle entfernt, die ich vorgeschlagen habe! Ich frage mich, ob es Unterschiede zwischen Feldern oder einfach zwischen Autoren gibt.
Silverfish

3
2100

@whuber Danke dafür. Dies ist eine sehr interessante Beobachtung und von großer Relevanz für die vom OP gestellte Frage: Angesichts der "zweitrangigen" Bedeutung von Kommentaren innerhalb des StackExchange-Systems sollten Sie dies in Ihre ausgezeichnete Antwort einbeziehen.
Silverfish

6

Für weit verbreitete Verweise auf Zitate enthält das Faraway-Buch auf Seite 117 eine Faustregel von über 30 zum Erkennen von Problemen anhand von Bedingungsnummern und Eine Einführung in das statistische Lernen , Seite 101, besagt, dass VIF-Werte über 5 oder 10 auf ein Problem hinweisen .

Wahrscheinlich wichtiger als die Methode, mit der Sie Multikollinearität identifizieren, ist der Umgang damit.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.