Multikollinearität zwischen ln (x) und ln (x) ^ 2

Ich verwende ein negatives Binomialmodell und eine meiner Prädiktorvariablen ist eine Zählvariable. Da diese Variable stark verzerrt war, habe ich beschlossen, sie logarithmisch zu transformieren.

Es wird jedoch angenommen, dass der Effekt dieser Variablen nicht linear ist. Sobald ich jedoch den quadratischen Term in mein Modell einbeziehe, erhalte ich VIFs dieser beiden Variablen, die> 20 sind, während alle anderen Prädiktoren bei VIFs zwischen 1 und 5 stabil bleiben.

Nach meinem derzeitigen Verständnis sollte die Beziehung nicht linear sein und daher sollte keine Multikollinienz entstehen.

Kann jemand die Ursache der Multi-Kollinearität erklären und mögliche Lösungen für dieses Problem geben?

multicollinearity logarithm vif

— statsnewby
quelle

Nun, f (x) = x ^ 2, wo die Kollinearität entsteht. Wenn Sie die Kollinearität zwischen x und x ^ 2 reduzieren möchten, empfehle ich, x zu zentrieren und dann die zentrierte Kovariate zu quadrieren. Siehe diesen Beitrag: theanalysisfactor.com/…

— Brash Equilibrium

Was ist die Domäne von

x

$x$ ? Für sehr kleine Werte

x

$x$ könnte ungefähr in Betracht gezogen werden

x^{2}

$x^2$ .

— Dan

x ist zwischen 1 und 650, aber nach der Protokolltransformation sind die Werte offensichtlich viel kleiner (zwischen 0 und 2,8)

— Statistik neu

Es scheint, dass Sie die Beziehung zwischen einer Variablen und ihrem Quadrat annehmen (es ist zufällig das Protokoll von

x

$x$ und das Quadrat dieses Protokolls, aber das ist hier nicht so wichtig) ist kein lineares und daher sind sie nicht korreliert. Andere haben den Fehler bereits erklärt, aber Sie könnten an diesem verwandten Thread interessiert sein: Pearson-Korrelation zwischen einer Variablen und ihrem Quadrat .

— Silverfish

Antworten:

Bis auf sehr kleine Zahlen, $\log(x)^2$ ist im Wesentlichen eine lineare Funktion von $\log(x)$ ::

Die farbigen Linien passen zu den kleinsten Quadraten $\log(x)^2$ vs. $\log(x)$ für verschiedene Zählbereiche $x$ . Sie sind einmal extrem gut $x$ überschreitet $10$ (und immer noch schrecklich gut, auch wenn $x\gt 4$ oder so).

Das Einführen des Quadrats einer Variablen wird manchmal verwendet, um die Anpassungsgüte zu testen, ist jedoch (meiner Erfahrung nach) selten eine gute Wahl als erklärende Variable. Berücksichtigen Sie die folgenden Optionen, um eine nichtlineare Antwort zu berücksichtigen:

Untersuchen Sie die Natur der Nichtlinearität. Wählen Sie geeignete Variablen und / oder Transformationen aus, um sie zu erfassen.
Behalten Sie die Zählung selbst im Modell. Bei größeren Zählungen besteht weiterhin Kollinearität. Erstellen Sie daher ein Paar orthogonaler Variablen aus $x$ und $\log(x)$ um eine numerisch stabile Passform zu erreichen.
Verwenden Sie Splines von $x$ (und / oder $\log(x)$ ), um die Nichtlinearität zu modellieren.
Ignorieren Sie das Problem insgesamt. Wenn Sie über genügend Daten verfügen, kann ein großes VIF keine Rolle spielen. Wenn es nicht Ihr Ziel ist, genaue Koeffizientenschätzungen zu erhalten (was Ihre Transformationsbereitschaft nahelegt, dass dies nicht der Fall ist), spielt Kollinearität ohnehin kaum eine Rolle.

— whuber
quelle

Dies ist die Antwort, die ich bevorzugen würde, da sie das anspricht

l o g (x)

$log(x)$ Bestandteil der Frage, die ich unten nicht getan habe.

— Dreistes Gleichgewicht

Vielen Dank für die Antwort, die es vollkommen klar gemacht hat! Als Follow-up möchte ich eine abnehmende Rendite für diese Variable zeigen und bin mir nur der Möglichkeit bewusst, einen quadratischen Term einzuführen. Was wäre angesichts der Verwendung eines Protokolls ein geeigneterer Ansatz?

— Statistik neu

Jede der vier Aufzählungszeichen wäre eine Möglichkeit.

— whuber

Die Quelle der Kollinearität ist das $f(x) = x^2$ . Ein Weg, um die Korrelation zwischen zu reduzieren $x$ und $x^2$ ist zu zentrieren $x$ . Lassen $z=x-E(x)$ und berechnen $z^2$ . Da das untere Ende der Skala jetzt große absolute Werte aufweist, wird das Quadrat groß, wodurch die Beziehung zwischen den Skalen hergestellt wird $z$ und $z^2$ weniger linear als das zwischen $x$ und $x^2$ . Dieser Rat stammt von The Analysis Factor: http://www.theanalysisfactor.com/centering-for-multicollinearity-between-main-effects-and-interaction-terms/

Hinweis : Denken Sie bei der Interpretation der Effekte daran, dass Sie die Kovariate skaliert haben. Einige Forscher warnen möglicherweise vor einer Skalierung, da die Ergebnisse Ihres Modells dann datenabhängig sind. Hier ist eine Perspektive von Andrew Gelman zu diesem Thema: http://andrewgelman.com/2009/07/11/when_to_standar/

— Dreistes Gleichgewicht
quelle

Vielen Dank! Ich habe zwei Fragen zu diesem Ansatz: Erstens bezieht sich das x, auf das Sie sich beziehen, auf das nicht transformierte x oder das ln (x)? Die Zentrierung in (x) führte zu keinen wesentlichen Verbesserungen (VIF von 16). Zweitens meinen Sie den Durchschnitt von X mit E (x), also die Zentrierung der Variablen?

— Statistik neu

Ah, guter Punkt, ich habe diesen Teil Ihrer Frage vergessen. Ich würde auf die Antwort von @whuber verweisen.

— Dreistes Gleichgewicht