Es ist nur eine sehr geringe Korrelation zwischen den unabhängigen Variablen erforderlich, um dies zu bewirken.
Versuchen Sie Folgendes, um zu sehen, warum:
Zeichnen Sie 50 Sätze von zehn Vektoren mit Koeffizienten iid normaler Norm.(x1,x2,…,x10)
Berechnen Sie für . Dies macht das individuell normal, aber mit einigen Korrelationen zwischen ihnen.yi=(xi+xi+1)/2–√i=1,2,…,9yi
Berechne . Beachten Sie, dass .w=x1+x2+⋯+x10w=2–√(y1+y3+y5+y7+y9)
Fügen Sie einen unabhängigen normalverteilten Fehler hinzu . Mit ein wenig Experiment fand ich, dass mit ziemlich gut funktioniert. Somit ist die Summe aus und einem gewissen Fehler. Es ist auch die Summe von einigen der plus dem gleichen Fehler.wz=w+εε∼N(0,6)zxiyi
Wir betrachten das als die unabhängigen Variablen und die abhängige Variable.yiz
Hier ist eine Streudiagramm-Matrix eines solchen Datensatzes, wobei oben und links und das in der angegebenen Reihenfolge .zyi
Die erwarteten Korrelationen zwischen und sind wenn andernfalls und . Die realisierten Korrelationen reichen bis zu 62%. Sie erscheinen als engere Streudiagramme neben der Diagonale.yiyj1/2|i−j|=10
Schauen Sie sich die Regression von gegen das :zyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
Die F-Statistik ist hochsignifikant, aber keine der unabhängigen Variablen ist selbst ohne Anpassung für alle 9 von ihnen signifikant .
Um zu sehen, was los ist, betrachten Sie die Regression von gegen nur das ungeradzahlige :zyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
Einige dieser Variablen sind selbst bei einer Bonferroni-Anpassung von großer Bedeutung. (Wenn man sich diese Ergebnisse ansieht, kann man noch viel mehr sagen, aber das würde uns vom Hauptpunkt abbringen.)
Die Intuition dahinter ist, dass erster Linie von einer Teilmenge der Variablen abhängt (aber nicht unbedingt von einer eindeutigen Teilmenge). Das Komplement dieser Untergruppe ( ) fügt im Wesentlichen keine Informationen über da Korrelationen - wie gering sie auch sein - mit der Untergruppe selbst bestehen.zy2,y4,y6,y8z
Diese Art von Situation wird in der Zeitreihenanalyse auftreten . Wir können die Indizes als Zeiten betrachten. Die Konstruktion des hat, ähnlich wie bei vielen Zeitreihen, eine Korrelation über kurze Entfernungen zwischen ihnen hervorgerufen. Aus diesem Grund verlieren wir wenig Informationen, wenn wir die Serien in regelmäßigen Abständen unterabtasten.yi
Eine Schlussfolgerung, die wir daraus ziehen können, ist, dass zu viele Variablen in einem Modell die wirklich signifikanten maskieren können. Das erste Anzeichen dafür ist die hochsignifikante Gesamt-F-Statistik, begleitet von nicht so signifikanten t-Tests für die einzelnen Koeffizienten. (Auch wenn einige der Variablen individuell signifikant sind, bedeutet dies nicht automatisch, dass andere nicht signifikant sind. Dies ist einer der Hauptfehler der schrittweisen Regressionsstrategien: Sie fallen diesem Maskierungsproblem zum Opfer.) Übrigens, die Varianzinflationsfaktorenim ersten Regressionsbereich von 2,55 bis 6,09 mit einem Mittelwert von 4,79: kurz vor der Diagnose einer Multikollinearität nach den konservativsten Faustregeln; deutlich unter der Schwelle nach anderen Regeln (wobei 10 eine obere Grenze ist).