Ich möchte vorschlagen, dass dieses Phänomen (eines nicht signifikanten Gesamttests trotz einer signifikanten Einzelvariablen) als eine Art aggregierter "Maskierungseffekt" aufgefasst werden kann und dass es sich möglicherweise aus multikollinearen erklärenden Variablen ergibt, dies aber nicht muss das überhaupt. Es stellt sich auch heraus, dass dies nicht auf mehrfache Vergleichseinstellungen zurückzuführen ist. Diese Antwort fügt somit den bereits erschienenen Antworten einige Qualifikationen hinzu, was im Gegenteil nahe legt, dass entweder Multikollinearität oder Mehrfachvergleiche als die Schuldigen angesehen werden sollten.
Um die Plausibilität dieser Behauptungen zu ermitteln, generieren wir eine Sammlung von perfekt orthogonalen Variablen - so nicht kollinear wie möglich - und einer abhängigen Variablen, die explizit nur durch die erste der Erklärungen bestimmt wird (zuzüglich einer guten Menge an Zufallsfehlern) unabhängig von allem anderen). In R
dieser kann (reproduzierbar, wenn Sie experimentieren mögen) durchgeführt werden , wie
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
Es ist unwichtig, dass die erklärenden Variablen binär sind. Was zählt, ist ihre Orthogonalität, die wir überprüfen können, um sicherzustellen, dass der Code wie erwartet funktioniert. Dies kann durch Untersuchen der Korrelationen geschehen. Tatsächlich ist die Korrelationsmatrix interessant : Die kleinen Koeffizienten weisen darauf hin y
, dass sie mit keiner der Variablen zu tun haben, mit Ausnahme der ersten (beabsichtigten) und der nicht diagonalen Nullen, die die Orthogonalität der erklärenden Variablen bestätigen:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
Lassen Sie uns eine Reihe von Regressionen ausführen , wobei wir nur die erste Variable, dann die ersten beiden und so weiter verwenden. Zur Kürze und zum einfachen Vergleich zeige ich in jedem nur die Zeile für die erste Variable und den gesamten F-Test:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
Sehen Sie sich an, wie (a) sich die Signifikanz der ersten Variablen kaum ändert, (a ') die erste Variable signifikant bleibt (p <0,05), auch wenn Sie mehrere Vergleiche durchführen ( z. B. wenden Sie Bonferroni an, indem Sie den nominellen p-Wert mit dem multiplizieren Anzahl der erklärenden Variablen), (b) der Koeffizient der ersten Variablen ändert sich kaum, aber (c) die Gesamtsignifikanz wächst exponentiell und steigt schnell auf ein nicht signifikantes Niveau an.
Ich interpretiere dies als Beweis dafür, dass das Einbeziehen von erklärenden Variablen, die weitgehend unabhängig von der abhängigen Variablen sind, den gesamten p-Wert der Regression "maskieren" kann. Wenn die neuen Variablen zu den vorhandenen und zu der abhängigen Variablen orthogonal sind, ändern sie die einzelnen p-Werte nicht. (Die kleinen Änderungen, die hier zu sehen sind, sind darauf zurückzuführen, dass der zufällige Fehler, der hinzugefügt y
wird, zufällig leicht mit allen anderen Variablen korreliert.) Eine Lehre daraus ist, dass Sparsamkeit wertvoll ist : Die Verwendung so weniger Variablen wie nötig kann die Bedeutung von stärken die Ergebnisse.
Ich sage nicht , dass dies notwendigerweise für den Datensatz in der Frage geschieht, über den wenig bekannt wurde. Das Wissen darüber, dass dieser Maskierungseffekt auftreten kann , sollte jedoch unsere Interpretation der Ergebnisse sowie unsere Strategien zur Variablenauswahl und Modellbildung beeinflussen.