Was passiert, wenn ich eine quadratische Variable in meine Regression einbeziehe?


20

Ich beginne mit meiner OLS-Regression: wobei D eine Dummy-Variable ist und die Schätzungen sich von Null mit einem niedrigen p-Wert unterscheiden. Ich führe dann einen Ramsey-RESET-Test durch und stelle fest, dass ich eine falsche Schreibweise der Gleichung habe. Ich beziehe also das Quadrat x ein:

y=β0+β1x1+β2D+ε
y=β0+β1x1+β2x12+β3D+ε
  1. Was erklärt der Quadratbegriff? (Nichtlineare Zunahme von Y?)
  2. Auf diese Weise ändert sich meine D-Schätzung nicht mehr von Null mit einem hohen p-Wert. Wie interpretiere ich den quadratischen Term in meiner Gleichung (im Allgemeinen)?

Bearbeiten: Verbesserung der Frage.



1
Wahrscheinlicher Grund: und D scheinen die gleiche Variabilität in yx12Dy
steadyfish

3
Eine Möglichkeit besteht darin, zu zentrieren, bevor Sie einen quadratischen Ausdruck erstellen (siehe hier ). Was die Interpretation Ihres quadrierten Terms angeht, so ist es meiner Meinung nach am besten, β 1 x 1 + β 2 x 2 1 als Ganzes zu interpretieren (siehe hier ). Eine andere Sache ist, dass Sie möglicherweise eine Interaktion benötigen, dh, Sie müssen β 4 x 1 D + β 5 x 2 1 D hinzufügen . x β1x1+β2x12 β4x1D+β5x12D
gung - Wiedereinstellung von Monica

Ich denke nicht, dass es wirklich ein Duplikat dieser Frage ist. Die Lösung ist anders (Zentrierungsvariablen funktionieren hier, aber nicht dort, es sei denn, ich
täusche

@ Peter, ich interpretiere diese Frage als Teilmenge von "Warum ist es so, dass, wenn ich eine Variable zu meinem Modell hinzufüge, der Effektschätzwert / Wert für einige andere Variablenänderungen?", Der in der anderen Frage angesprochen wird. Zu den Antworten auf diese Fragen gehören Kollinearität (worauf Gung in seiner Antwort auf diese Frage anspielt ) / inhaltliche Überschneidungen zwischen Prädiktoren (dh zwischen D und ( x 1 , x 2 1 ) , von denen ich vermute, dass dies der Schuldige ist). . Die gleiche Logik gilt hier. Ich bin nicht sicher, was die Kontroverse ist, aber das ist in Ordnung, wenn Sie und andere anderer Meinung sind. Prost. pD(x1,x12)
Makro

Antworten:


21

Zunächst wird die Dummy-Variable als Änderung des Achsenabschnitts interpretiert. Das heißt, Ihr Koeffizient gibt Ihnen den Unterschied im Achsenabschnitt an, wenn D = 1 ist , dh wenn D = 1 ist , ist der Achsenabschnitt β 0 + β 3 . Diese Interpretation ändert sich nicht, wenn das Quadrat x 1 addiert wird .β3D=1D=1β0+β3x1

Wenn Sie der Reihe ein Quadrat hinzufügen, müssen Sie davon ausgehen, dass die Beziehung an einem bestimmten Punkt nachlässt. Betrachten Sie Ihre zweite Gleichung

y=β0+β1x1+β2x12+β3D+ε

Nimmt man das Derivat für erhält manx1

δyδx1=β1+2β2x1

β1<0

y^=1.3+0.42x10.32x12+0.14D

x1

δyδx1=0.4220.32x1

x1

δyδx1=0x10.66

Das ist der Punkt, an dem die Beziehung ihren Wendepunkt hat. Sie können sich die Ausgabe von Wolfram-Alpha für die obige Funktion ansehen, um sich ein Bild von Ihrem Problem zu machen.

x1y

Δy=(β1+2β2x1)Δx

β1x12

Dx1


Hallo. Wenn Sie mehrere Prädiktoren hatten, sollten Sie partielle Ableitungen oder totale Ableitungen (Differentiale) verwenden?
Skan

1
Eine teilweise Ableitung ist hier noch der richtige Weg. Die Interpretation aller Koeffizienten ist ceteris paribus , dh alles andere bleibt konstant. Genau das machen Sie, wenn Sie eine partielle Ableitung nehmen.
Altabq

Diese UCLA IDRE-Seite ergänzt die großartige Antwort von @ altabq.
Cyrille

19

Ein gutes Beispiel für die Einbeziehung des Quadrats der Variablen stammt aus der Arbeitsökonomie. Wenn Sie yals Lohn (oder Lohnprotokoll) und xals Alter annehmen , x^2bedeutet Einschließen , dass Sie das quadratische Verhältnis zwischen Alter und Lohngehalt testen. Der Lohn steigt mit dem Alter, wenn die Menschen erfahrener werden. Mit zunehmendem Alter nimmt der Lohn jedoch mit abnehmender Geschwindigkeit zu (die Menschen werden älter und arbeiten nicht mehr so ​​gesund wie zuvor), und irgendwann steigt der Lohn nicht mehr ( erreicht das optimale Lohnniveau) und beginnt dann zu fallen (sie gehen in den Ruhestand und ihr Einkommen beginnt zu sinken). Das Verhältnis zwischen Lohn und Alter ist also umgekehrt U-förmig (Lebenszykluseffekt). Im Allgemeinen wird für das hier erwähnte Beispiel ageerwartet, dass der Koeffizient on positiv und dann on istage^2Der Punkt hier ist, dass es eine theoretische Basis / empirische Rechtfertigung für die Einbeziehung des Quadrats der Variablen geben sollte. Die Dummy-Variable kann hier als Repräsentant des Geschlechts des Arbeitnehmers angesehen werden. Sie können auch den Interaktionsbegriff von Geschlecht und Alter einbeziehen, um zu untersuchen, ob das geschlechtsspezifische Differential je nach Alter variiert.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.