Gibt es einen Grund, ein bestimmtes Maß an Multikollinearität zu bevorzugen?

Bei der Arbeit mit vielen Eingabevariablen geht es uns häufig um Multikollinearität . Es gibt eine Reihe von Maßstäben für Multikollinearität, mit denen Multikollinearität erkannt, überlegt und / oder kommuniziert wird. Einige allgemeine Empfehlungen sind:

Das Mehrfache für eine bestimmte Variable $R^2_j$
Die Toleranz für eine bestimmte Variable $1-R^2_j$
Der Varianzinflationsfaktor für eine bestimmte Variable $\text{VIF}=\frac{1}{\text{tolerance}}$
Die Bedingungsnummer der Entwurfsmatrix als Ganzes:

$\sqrt{\frac{max (Eigenwert (X'X))}{min (Eigenwert (X'X))}}$ $\sqrt{\frac{\text{max(eigenvalue(X'X))}}{\text{min(eigenvalue(X'X))}}}$

(Es gibt einige andere Optionen, die im Wikipedia-Artikel und hier auf SO im Kontext von R diskutiert werden .)

Die Tatsache, dass die ersten drei eine perfekte Funktion voneinander sind, legt nahe, dass der einzig mögliche Nettovorteil zwischen ihnen psychologischer Natur wäre. Andererseits können Sie mit den ersten drei Variablen einzeln untersuchen, was möglicherweise von Vorteil ist, aber ich habe gehört, dass die Bedingungsnummernmethode als die beste angesehen wird.

Ist das wahr? Am besten für was?
Ist die Bedingungsnummer eine perfekte Funktion der 's? (Ich würde denken, dass es sein würde.) $R^2_j$
Finden die Leute, dass einer von ihnen am einfachsten zu erklären ist? (Ich habe nie versucht, diese Zahlen außerhalb des Unterrichts zu erklären. Ich gebe nur eine lose, qualitative Beschreibung der Multikollinearität.)

multicollinearity

— gung - Wiedereinsetzung von Monica
quelle

Ich habe eine entsprechende Folgefrage gepostet, mit Antworten auf diese, die ergänzen, was bereits hier steht: stats.stackexchange.com/questions/173665/…

— kyrenia

In den späten 1990er Jahren habe ich meine Dissertation über Kollinearität gemacht.

Mein Fazit war, dass die Zustandsindizes am besten waren.

Der Hauptgrund war , dass, anstatt Blick auf einzelne Variablen, es lässt Sie betrachten Sets von Variablen. Da Kollinearität eine Funktion von Variablensätzen ist, ist dies eine gute Sache.

Auch die Ergebnisse meiner Monte-Carlo-Studie zeigten eine bessere Empfindlichkeit gegenüber problematischer Kollinearität, aber ich habe die Details längst vergessen.

Andererseits ist es wahrscheinlich am schwierigsten zu erklären. Viele Leute wissen, was ist. Nur ein kleiner Teil dieser Menschen hat von Eigenwerten gehört. Wenn ich jedoch Zustandsindizes als Diagnosewerkzeug verwendet habe, wurde ich nie um eine Erklärung gebeten. $R^2$

Weitere Informationen finden Sie in den Büchern von David Belsley. Oder, wenn Sie wirklich wollen, können Sie meine Dissertation Multikollinearitätsdiagnostik für multiple Regression erhalten: Eine Monte-Carlo-Studie

— Peter Flom - Wiedereinsetzung von Monica
quelle

Ist die Idee hier also, dass Sie bei Betrachtung von VIFs fälschlicherweise den Schluss ziehen, dass Multikollinearität kein Problem ist, aber wenn Sie sich die Bedingungsnummer angesehen hätten, wären Sie eher zu der richtigen Schlussfolgerung gekommen? Vielleicht so etwas wie ein Test mit größerer statistischer Aussagekraft?

— gung - Reinstate Monica

+1. Glücklicherweise haben wir zur Erklärung der Bedingungsnummer bereits einen herausragenden Thread auf dieser Site: Es ist die maximale Verzerrung, die in der Beschreibung der Entwurfsvariablen zweiter Ordnung als Punktwolke zu finden ist. Je größer die Verzerrung ist, desto mehr tendieren die Punkte dazu, in einem Unterraum zu liegen. Diese geometrische Einsicht zeigt auch, warum die Konditionierung einer zentrierten Entwurfsmatrix besser ist als die der Rohentwurfsmatrix selbst.

— whuber

Nun, es ist schwer genau zu definieren, was die "richtige" Schlussfolgerung ist; Es sollte jedoch etwas mit kleinen Änderungen in den Daten zu tun haben, die große Änderungen in der Ausgabe hervorrufen. Wie ich mich erinnere, waren Bedingungsindizes direkter damit verbunden. Aber das Wichtigste war, die Varianzproportionen zu erhalten, mit denen Sie Sätze von Variablen und den Grad ihrer Kollinearität sehen können. (Natürlich war das alles vor 14 Jahren ... aber ich glaube nicht, dass sich die Dinge geändert haben. Die Maßnahmen sind die gleichen. Aber mein Gedächtnis ist möglicherweise nicht perfekt.)

— Peter Flom - Reinstate Monica

Gung, ein entscheidender Punkt dabei ist, dass die Bedingungsnummer unabhängig von Koordinaten ist: Sie bleibt bei (orthogonalen) linearen Rekombinationen der Daten unverändert. Daher kann es unmöglich etwas über einzelne Variablen ausdrücken, sondern muss eine Eigenschaft der gesamten Sammlung erfassen. Wenn Sie es verwenden, werden Sie teilweise davon abgehalten, durch den Ausdruck Ihrer Variablen in die Irre geführt zu werden.

— whuber

Ich war zu überfüllt, um Ihre Dissertation zu beenden, aber es war bisher sehr hilfreich. Danke noch einmal.

— gung - Wiedereinsetzung von Monica