Zweistufige Modelle: Unterschied zwischen Heckman-Modellen (zur Auswahl der Stichproben) und instrumentellen Variablen (zur Behandlung der Endogenität)

16

Ich versuche, mich mit dem Unterschied zwischen Stichprobenauswahl und Endogenität auseinanderzusetzen, und der Reihe nach zu erklären, wie sich Heckman-Modelle (um mit der Stichprobenauswahl umzugehen) von Regressionen instrumenteller Variablen (um mit Endogenität umzugehen) unterscheiden.

Ist es richtig zu sagen, dass die Probenauswahl eine bestimmte Form der Endogenität ist, bei der die endogene Variable die Wahrscheinlichkeit der Behandlung ist?

Außerdem scheint es mir, dass sowohl Heckman-Modelle als auch IV-Regression zweistufige Modelle sind, bei denen die erste Stufe die Wahrscheinlichkeit der Behandlung vorhersagt. Ich gehe davon aus, dass sie sich hinsichtlich ihrer empirischen Aktivitäten, ihrer Ziele und Annahmen unterscheiden müssen. aber wie?

— kyrenia
quelle

23

Um Ihre erste Frage zu beantworten, Sie Recht, dass es sich bei der Stichprobenauswahl um eine bestimmte Form der Endogenität handelt (siehe Antonakis et al. 2010 für einen guten Überblick über die Endogenität und die gängigen Arzneimittel). Sie sind jedoch nicht der Meinung, dass die Wahrscheinlichkeit einer Behandlung unzutreffend ist ist die endogene Variable, da es sich um die Behandlungsvariable selbst ("nicht zufällige Behandlungszuordnung") handelt - und nicht um die Wahrscheinlichkeit, behandelt zu werden -, die bei der Stichprobenauswahl endogen ist. Erinnern Sie sich, dass Endogenität sich auf eine Situation bezieht, in der Sie einen Kausalzusammenhang zwischen Faktor X und Faktor Y falsch identifiziert haben, wenn der beobachtete „Zusammenhang“ tatsächlich auf einen anderen Faktor Z zurückzuführen ist, der sowohl X als auch Y beeinflusst. Anders ausgedrückt, gegeben ein Regressionsmodell :

$y_i=\beta_0+\beta_1x_i+...+\epsilon_i$

Endogenität tritt auf, wenn einer oder mehrere Ihrer Prädiktoren mit dem Fehlerterm im Modell zusammenhängen. Das heißt, wenn . $Cov(x,\epsilon)\ne0$

Die häufigsten Ursachen für Endogenität sind:

Ausgelassene Variablen (einige Dinge können wir einfach nicht messen)
- Motivation / Wahl
- Fähigkeit / Talent
- Selbstauswahl
Messfehler (wir möchten einschließen , aber wir beobachten nur ) $x_j$ $x_j*$
Gleichzeitigkeit / Bidirektionalität (bei Kindern unter 5 Jahren kann der Zusammenhang zwischen dem Ernährungsstatusindikator „Gewicht nach Alter“ und der Frage, ob das Kind kürzlich krank war, gleichzeitig bestehen.

Unterschiedliche Arten von Problemen erfordern leicht unterschiedliche Lösungen. Hier liegt der Unterschied zwischen IV- und Heckman-Korrekturen. Natürlich gibt es Unterschiede in der zugrunde liegenden Mechanik dieser Methoden, aber die Prämisse ist die gleiche: Die Endogenität sollte im Idealfall über eine Ausschlussbeschränkung beseitigt werden, dh ein oder mehrere Instrumente im Fall von IV oder einer Variablen, die die Auswahl beeinflusst, jedoch nicht das Ergebnis im Fall von Heckman.

Um Ihre zweite Frage zu beantworten, Sie über die Unterschiede bei den Arten von Datenbeschränkungen nachdenken, die zur Entwicklung dieser Lösungen geführt haben. Ich denke gerne, dass der Instrumentalvariablen (IV) -Ansatz verwendet wird, wenn eine oder mehrere Variablen endogen sind und es einfach keine guten Proxys gibt, um die Endogenität zu beseitigen, aber die Kovariaten und Ergebnisse werden für alle Beobachtungen beobachtet. Heckman-Korrekturen werden dagegen verwendet, wenn Sie eine Kürzung haben, dh die Informationen werden für diejenigen in der Stichprobe nicht beachtet, bei denen der Wert der Auswahlvariablen == 0 ist.

Der Instrumentalvariablen (IV) -Ansatz

Denken Sie an das klassische ökonometrische Beispiel für eine IV-Regression mit dem 2SLS-Schätzer (Two Stage Least Squares): die Auswirkung von Bildung auf das Einkommen.

(1) $Earnings_i=\beta_0+ \beta_1OwnEd_i + \epsilon_i$

Hier ist das Bildungsniveau endogen, da es zum Teil von der Motivation und den Fähigkeiten des Einzelnen abhängt, die sich auch auf das Einkommen eines Menschen auswirken. Motivation und Fähigkeit werden normalerweise nicht in Haushalts- oder Wirtschaftsumfragen gemessen. Gleichung 1 kann daher so geschrieben werden, dass sie ausdrücklich Motivation und Fähigkeit enthält:

$Earnings_i=\beta_0+ \{\beta_1OwnEd_i + \beta_2Motiv_i + \beta_3Abil_i\} + \epsilon_i$

$Motiv$ $Abil$

$Earnings_i=\beta_0+ \beta_1OwnEd_i + u_i$

$u_i=\beta_2Motiv_i + \beta_3Abil_i + \epsilon_i$

Daher wäre eine naive Einschätzung der Auswirkung von Bildung auf das Einkommen über OLS voreingenommen. Diesen Teil kennst du schon.

$z$

$z$ $𝐶𝑜𝑣(𝑧,𝑥)≠0$
$z$ $𝐶𝑜𝑣(𝑧,𝑦)=0$
$z$ $z$ $𝐶𝑜𝑣(𝑧,𝑢)=0$

$OwnEd$ $MomEd$ $DadEd$ $\widehat{OwnEd}$ $Earnings$ $Earnings$ $OwnEd$

Heckman-Korrekturen

Wie wir bereits festgestellt haben, ist die Auswahl nicht zufälliger Stichproben eine bestimmte Art von Endogenität. In diesem Fall gibt die ausgelassene Variable an, wie Personen in die Stichprobe aufgenommen wurden. Wenn Sie ein Problem mit der Stichprobenauswahl haben, wird Ihr Ergebnis in der Regel nur für diejenigen beobachtet, für die die Stichprobenauswahl durchgeführt wurde variable == 1. Dieses Problem ist auch als "zufälliges Abschneiden" bekannt, und die Lösung ist allgemein als Heckman-Korrektur bekannt. Das klassische Beispiel in der Ökonometrie ist das Lohnangebot von verheirateten Frauen:

$Wage_i = \beta_0 + \beta_1Educ_i + \beta_2Experience_i + \beta_3Experience^2_i+\epsilon_i$

$Wage$ $s$

$Wage_i^* = X\beta^\prime+\epsilon_i$

$LaborForce_i^* = Z\gamma^\prime+\nu_i$

$Wage = Wage_i^*$ $LaborForce_i^*>0$ $Wage = .$ $LaborForce_i^*\leq 0$

$\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ statistisch signifikant von Null abweicht, müssen Sie die Koeffizienten aus dem korrigierten Modell melden.

Verweise

Antonakis, John, Samuel Bendahan, Philippe Jacquart und Rafael Lalive. 2010. „Über das Erheben von Schadensursachen: Eine Überprüfung und Empfehlungen.“ The Leadership Quarterly 21 (6): 1086–1120. doi: 10.1016 / j.leaqua.2010.10.010.
Wooldridge, Jeffrey M. 2009. Einführende Ökonometrie: Ein moderner Ansatz. 4th ed. Mason, OH, USA: Südwest, Cengage Learning.

— Marquis de Carabas
quelle

1

Wie werden bei der Heckman-Korrektur die inversen Mills-Verhältniswerte für jede Beobachtung interpretiert? Gibt es Angaben zur Anzahl der Personen, die zu einem bestimmten Zeitpunkt von der nicht erwerbstätigen Bevölkerung beschäftigt werden?

— Quirik

2

Man sollte zwischen dem spezifischen Heckman-Stichprobenauswahlmodell (bei dem nur eine Stichprobe beobachtet wird) und Heckman-Korrekturen für die Selbstselektion unterscheiden, die auch für den Fall funktionieren können, bei dem die beiden Stichproben beobachtet werden. Letzteres wird als Kontrollfunktionsansatz bezeichnet und umfasst in Ihrer zweiten Stufe einen Begriff, der die Endogenität kontrolliert.

Nehmen wir einen Standardfall mit einer endogenen Dummy-Variablen D, einem Instrument Z:

Y. = β + β_{1} D + ϵ

$Y= \beta + \beta_1 D +\epsilon$

D = γ + γ_{1} Z + u

$D= \gamma + \gamma_1 Z +u$

Beide Ansätze durchlaufen eine erste Stufe (D auf Z). IV verwendet ein Standard-OLS (auch wenn D ein Dummy ist) Heckman verwendet ein Probit. Abgesehen davon liegt der Hauptunterschied in der Art und Weise, wie sie diese erste Stufe in die Hauptgleichung einsetzen:

IV : Brechen Sie die Endogenität auf, indem Sie D in Teile zerlegen, die nicht mit D korrelieren $\epsilon$ , gegeben durch die Vorhersage von D: $Y= \beta + \beta_1 \hat{D}+\epsilon$
Heckman : Modellieren Sie die Endogenität: Behalten Sie das endogene D bei, fügen Sie jedoch eine Funktion der vorhergesagten Werte der ersten Stufe hinzu. In diesem Fall ist es eine ziemlich komplizierte Funktion: $Y= \beta + \beta_1 D + \beta_2 \left[\lambda(\hat{D})-\lambda(-\hat{D})\right ] +\epsilon$ wo $\lambda()$ ist das inverse Mills-Verhältnis

Der Vorteil des Heckman-Verfahrens besteht darin, dass es einen direkten Test für die Endogenität bietet: den Koeffizienten $\beta_2$ . Andererseits beruht das Heckman-Verfahren auf der Annahme einer gemeinsamen Normalität der Fehler, während die IV keine solche Annahme trifft.

Sie haben also die Standardgeschichte, dass bei normalen Fehlern die Steuerfunktion effizienter ist (insbesondere, wenn anstelle der hier gezeigten zwei Schritte die MLE verwendet wird) als die IV, aber wenn die Annahme nicht zutrifft, wäre IV besser. Da Forscher der Annahme der Normalität gegenüber misstrauischer geworden sind, wird die IV häufiger verwendet.

— Matifou
quelle

0

Von Heckman, Urzua und Vytlacil (2006):

Beispiel für ein Auswahlbias : Berücksichtigen Sie die Auswirkungen einer Politik auf das Ergebnis eines Landes (z. B. BIP). Wenn die Länder, die in Bezug auf das Unbeobachtbare auch ohne die Politik gut abgeschnitten hätten, diejenigen sind, die die Politik übernehmen, dann sind die OLS-Schätzungen voreingenommen.

Zwei Hauptansätze wurden gewählt, um dieses Problem zu lösen: (a) Auswahlmodelle und (b) Modelle für instrumentelle Variablen.

Der Auswahlansatz modelliert Ebenen von bedingten Mitteln. Der IV-Ansatz modelliert die Steigungen der bedingten Mittel. IV identifiziert nicht die in Auswahlmodellen geschätzten Konstanten.

Der IV-Ansatz ist nicht an D (die Behandlung) gebunden. Der Auswahlschätzer (Steuerfunktion) identifiziert die bedingten Mittel unter Verwendung von Steuerfunktionen.

Bei Verwendung von Steuerfunktionen mit Krümmungsannahmen ist keine Ausschlussbeschränkung erforderlich (nicht erforderlich) $Z\neq X$ ) im Auswahlmodell. Indem man eine funktionale Form für die Verteilung der Fehlerausdrücke annimmt, schließt man die Möglichkeit aus, dass das bedingte Mittel der Ergebnisgleichung der bedingten Kontrollfunktion entspricht, und somit können Sie die Auswahl ohne Ausschlussbeschränkungen korrigieren. Siehe auch Heckman und Navarro (2004).

— José Gabriel Astaiza-Gómez
quelle