Grundeinstellung:
Regressionsmodell: wobei C der Vektor der Kontrollvariablen ist.
Ich interessiere mich für und erwarte, dass und negativ sind. Es gibt jedoch ein Multikollinearitätsproblem im Modell. Der Korrelationskoeffizient ist gegeben durch corr ( , 0,9345, corr ( , x_3) = 0,1765, corr ( x_2 , x_3) = 0,3019.β 1 β 2 x 1 x 2 ) =
So und stark korreliert sind , und sie sollten nahezu die gleichen Informationen zur Verfügung stellen. Ich führe drei Regressionen durch:
- ausschließen variabel; 2. Variable ausschließen; 3. Originalmodell mit und .
Ergebnisse:
Für Regression 1 und 2 wird das erwartete Vorzeichen für bzw. mit ähnlicher Größe angegeben. Und und sind in beiden Modellen in 10% signifikant, nachdem ich die HAC-Korrektur bei Standardfehlern durchgeführt habe. ist positiv, aber in beiden Modellen nicht signifikant.
Aber für 3 hat das erwartete Vorzeichen, aber das Vorzeichen für ist positiv, wobei die Größe im absoluten Wert zweimal größer als ist. Und sowohl als auch sind unbedeutend. Darüber verringert sich die Größe für \ beta_3 im Vergleich zu Regression 1 und 2 fast um die Hälfte.
Meine Frage ist:
Warum wird in 3 das Vorzeichen von positiv und im absoluten Wert viel größer als ? Gibt es einen statistischen Grund dafür, dass das Vorzeichen umdrehen kann und eine große Größe hat? Oder liegt es daran, dass Modell 1 und 2 unter einem Problem mit ausgelassenen Variablen leiden, das aufgeblasen vorausgesetzt, wirkt sich positiv auf y aus? Aber dann sollten in Regressionsmodell 1 und 2 sowohl als auch positiv statt negativ sein, da der Gesamteffekt von und in Regressionsmodell 3 positiv ist.