Das Thema, nach dem Sie fragen, ist Multikollinearität . Möglicherweise möchten Sie einige der Themen im Lebenslauf lesen, die unter dem Tag multicollinearity kategorisiert sind . @whubers Antwort im Besonderen ist auch Ihre Zeit wert.
Die Behauptung, dass "wenn zwei Prädiktoren korrelieren und beide in einem Modell enthalten sind, wird einer unwichtig sein", ist nicht korrekt. Wenn es einen realen Effekt einer Variablen gibt, ist die Wahrscheinlichkeit, dass die Variable signifikant ist, eine Funktion verschiedener Dinge, wie beispielsweise der Stärke des Effekts, der Stärke der Fehlervarianz, der Varianz der Variablen selbst und der Datenmenge Sie haben und die Anzahl der anderen Variablen im Modell. Ob die Variablen korreliert sind, ist ebenfalls relevant, setzt diese Fakten jedoch nicht außer Kraft. Betrachten Sie die folgende einfache Demonstration in R
:
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
N
X1X2R2X11 / ( 1 - R2)X110X110 ×X1
Zu überlegen, was passieren würde, wenn Sie beide korrelierten Variablen und nur eine einbeziehen, ist ähnlich, aber etwas komplizierter als der oben beschriebene Ansatz. Dies liegt daran, dass das Modell ohne Variable weniger Freiheitsgrade verwendet, wodurch die Restvarianz und alles, was daraus berechnet wird (einschließlich der Varianz der Regressionskoeffizienten), geändert wird. Wenn die nicht eingeschlossene Variable tatsächlich mit der Antwort verknüpft ist, wird die Varianz in der Antwort aufgrund dieser Variablen in die Restvarianz einbezogen, wodurch sie größer wird, als dies sonst der Fall wäre. Somit ändern sich mehrere Dinge gleichzeitig (die Variable ist mit einer anderen Variablen korreliert oder nicht, und die Restvarianz), und die genaue Auswirkung des Ablegens / Einschließens der anderen Variablen hängt davon ab, wie diese abgewickelt werden.
Hier finden Sie Antworten auf Ihre Fragen, die mit dem Verständnis des VIF ausgestattet sind:
- Da die Varianz der Stichprobenverteilung des Regressionskoeffizienten größer wäre (um einen Faktor des VIF), wenn sie mit anderen Variablen im Modell korreliert wäre, wären die p-Werte höher (dh weniger signifikant) als sonst .
- Die Varianzen der Regressionskoeffizienten wären, wie bereits diskutiert, größer.
- Y.
- Wie sich die vorhergesagten Werte und ihre Varianz ändern würden, ist ziemlich kompliziert. Dies hängt davon ab, wie stark die Variablen korreliert sind und wie sie Ihrer Antwortvariablen in Ihren Daten zugeordnet zu sein scheinen. In Bezug auf dieses Problem kann es hilfreich sein, meine Antwort hier zu lesen: Gibt es einen Unterschied zwischen dem Kontrollieren und dem Ignorieren anderer Variablen bei der multiplen Regression?