Die Kollinearitätsdiagnose ist nur dann problematisch, wenn der Interaktionsterm enthalten ist

Ich habe eine Regression für US-Grafschaften durchgeführt und überprüfe die Kollinearität meiner "unabhängigen" Variablen. Belsley, Kuh und Welschs Regressionsdiagnostik schlagen vor, den Bedingungsindex und die Varianzzerlegungsproportionen zu untersuchen:

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279

?HH::vif schlägt vor, dass VIFs> 5 problematisch sind:

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867

Während John Fox's Regression Diagnostics vorschlägt, sich die Quadratwurzel des VIF anzuschauen:

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329

In den ersten beiden Fällen (in denen ein eindeutiger Grenzwert vorgeschlagen wird) ist das Modell nur dann problematisch, wenn der Interaktionsterm enthalten ist.

Das Modell mit dem Interaktionsterm war bis zu diesem Punkt meine bevorzugte Spezifikation.

Ich habe zwei Fragen angesichts dieser Eigenart der Daten:

Verschlechtert ein Interaktionsterm immer die Kollinearität der Daten?
Da die beiden Variablen ohne den Interaktionsterm nicht über dem Schwellenwert liegen, kann ich das Modell mit dem Interaktionsterm verwenden. Insbesondere denke ich, dass dies in Ordnung sein könnte, weil ich die Methode von King, Tomz und Wittenberg (2000) verwende, um die Koeffizienten (negatives Binomialmodell) zu interpretieren, wobei ich die anderen Koeffizienten im Allgemeinen auf dem Mittelwert halte, und dann interpretieren , was Prognosen meiner abhängigen variablen geschieht , wenn ich bewegen inc09_10kund unins09um unabhängig und gemeinsam.

r multicollinearity vif variance-decomposition

— Ari B. Friedman
quelle

Antworten:

Ja, dies ist normalerweise bei nicht zentrierten Interaktionen der Fall. Ein kurzer Blick auf die Korrelation zweier unabhängiger Variablen und ihre "Interaktion"

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

Und dann, wenn Sie sie zentrieren:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

$X,~X^2,~...$ ) , Ohne zuerst Zentrierung.

So können Sie das mit Ihrem Paar versuchen.

Warum Zentrieren hilft - aber kehren wir zur Definition von Kovarianz zurück

\begin{aligned} Cov (X, X Y.) & = E [(X - E (X)) (X Y. - E (X Y.))] \\ = E [(X - μ_{x}) (X Y. - μ_{x y})] \\ = E [X^{2} Y. - X μ_{x y} - X Y. μ_{x} + μ_{x} μ_{x y}] \\ = E [X^{2} Y.] - E [X] μ_{x y} - E [X Y.] μ_{x} + μ_{x} μ_{x y} \end{aligned}

$\begin{align} \text{Cov}(X,XY) &= E[(X-E(X))(XY-E(XY))] \\ &= E[(X-\mu_x)(XY-\mu_{xy})] \\ &= E[X^2Y-X\mu_{xy}-XY\mu_x+\mu_x\mu_{xy}] \\ &= E[X^2Y]-E[X]\mu_{xy}-E[XY]\mu_x+\mu_x\mu_{xy} \\ \end{align}$

Selbst bei Unabhängigkeit von X und Y

\begin{aligned} = E [X^{2}] E [Y.] - μ_{x} μ_{x} μ_{y} - μ_{x} μ_{y} μ_{x} + μ_{x} μ_{x} μ_{y} \\ = (σ_{x}^{2} + μ_{x}^{2}) μ_{y} - μ_{x}^{2} μ_{y} \\ = σ_{x}^{2} μ_{y} \end{aligned}

$\begin{align} \qquad\qquad\qquad\, &= E[X^2]E[Y]-\mu_x\mu_x\mu_y-\mu_x\mu_y\mu_x+\mu_x\mu_x\mu_y \\ &= (\sigma_x^2+\mu_x^2)\mu_y-\mu_x^2\mu_y \\ &= \sigma_x^2\mu_y \\ \end{align}$

$X$ $Y$

$X$ $XY$ $Y$ $X$ $XY$ $Y$

— Affine
quelle

Interessant, danke. Haben Sie eine Erklärung oder ein Zitat, warum die Zentrierung wichtig ist?

— Ari B. Friedman

Ich denke so wie es ist, verdient diese Antwort nicht das ganze Kopfgeld, aber ich würde ihr gerne ein halbes Kopfgeld geben. Ich bin mir nicht sicher, ob das passiert, außer es hat eine zweite Gegenstimme: - /.

— Ari B. Friedman

@ AriB.Friedman, du hast (genau) nicht die Möglichkeit, die Hälfte des Kopfgeldes zu geben. Sie können das Kopfgeld nicht gewähren (obwohl Sie trotzdem die Wiederholung verloren haben) und dieser Beitrag wird wahrscheinlich automatisch die Hälfte des Kopfgeldes erhalten (siehe den entsprechenden Abschnitt der Hilfeseite ). Aber warum hätte diese Antwort nicht das Kopfgeld verdient? Hier ist Affine genau richtig (+1).

— gung - Wiedereinsetzung von Monica

@gung Ich habe vorbearbeitet gesucht. Auf jeden Fall verdient es jetzt. Vielen Dank @Affine! Was den Teil mit dem halben Kopfgeld betrifft, so ist es meines Wissens eine >=+2 Antwort, die ein halbes Kopfgeld erhält, wenn das Kopfgeld nicht manuell vergeben wird.

— Ari B. Friedman

@ AriB.Friedman, das stimmt, aber bevor ich etwas kommentierte (& upvoted, und jemand anderes auch), hatte er keine 2+ Upvotes.

— gung - Wiedereinsetzung von Monica

Ich fand die folgenden Veröffentlichungen zu diesem Thema nützlich:

Robinson & Schumacker (2009): Interaktionseffekte: Zentrierung, Varianzinflationsfaktor und Interpretationsprobleme

"Die Auswirkungen der Prädiktorskalierung auf die Koeffizienten von Regressionsgleichungen (zentrierte versus nicht zentrierte Lösungen und Wechselwirkungseffekte höherer Ordnung (3-Wege-Wechselwirkungen; kategorisiert durch kontinuierliche Effekte) wurden von Aiken und West (1991) sorgfältig behandelt. Ihr Beispiel veranschaulicht diese beträchtliche Multikollinearität." wird in eine Regressionsgleichung mit einem Interaktionsterm eingefügt, wenn die Variablen nicht zentriert sind. '

Afshartous & Preston (2011): Schlüsselergebnisse von Interaktionsmodellen mit Zentrierung

"Zu den Motivationen für die Verwendung der variablen Zentrierung gehören eine verbesserte Interpretierbarkeit der Koeffizienten und eine verringerte numerische Instabilität für die mit Multikollinearität verbundene Schätzung."

Natürlich behandeln auch Aiken und West (1991) dieses Thema, aber ich habe ihr Buch nicht.

— Klopfen
quelle