Control Function Approach und Bootstrap

Nehmen wir an, ich habe Querschnittsdaten zu , , (siehe unten für , , ). $y$ $x_1$ $x_2$ $y$ $x_1$ $x_2$

Ich möchte die Auswirkung der Variablen und und ihre Wechselwirkung ( ) auf die Variable Verwendung des Kontrollfunktionsansatzes abschätzen , und höchstwahrscheinlich sind und endogen. Ich habe zwei Instrumente, und . Ich schätze die folgenden zwei Gleichungen der ersten Stufe und speichere die vorhergesagten Residuen folgendermaßen: $x_1$ $x_2$ $x_3= x_1*x_2$ $y$ $x_1$ $x_2$ $z_1$ $z_2$

ivreg2 x1 z1 z2 
predict error1hat, residuals
ivreg2 x2 z1 z2 
predict error2hat, residuals

Sobald ich die vorhergesagten Residuen gespeichert habe, schätze ich die Gleichung der zweiten Stufe folgendermaßen:

ivreg2 y x1 x2 x3 error1hat error2hat

Obwohl die geschätzten Koeffizienten von , und sinnvoll sind, weiß ich, dass die Standardfehler nicht in Ordnung sind (siehe Seite 8 von http://eml.berkeley.edu/~train/petrintrain.pdf ). $x_1$ $x_2$ $x_3$

Auf Seite 8 von http://eml.berkeley.edu/~train/petrintrain.pdf schlagen die Autoren vor, den Bootstrap zu verwenden, um korrigierte Standardfehler für , und . $x_1$ $x_2$ $x_3$

Meine Fragen sind :

Wie soll ich den Bootstrap einrichten?
Wird der Bootstrap nur auf die Gleichung der zweiten Stufe angewendet, oder wird er sowohl auf die Gleichung der ersten als auch der zweiten Stufe angewendet?

Nehmen wir nun an, ich habe Paneldaten zu , und . Zuerst benutze ich die gruppeninterne Differenzierung, um unbeobachtete Heterogenität zu löschen, dann schätze ich die Parameter unter Verwendung des Kontrollfunktionsansatzes, als wären die Daten Querschnittsdaten (siehe oben). Muss ich einige zusätzliche Anpassungen vornehmen, wenn ich Paneldaten in Bezug auf den oben gezeigten Fall verwende? $y$ $x_1$ $x_2$

— Mark Vitale-Ferrari
quelle

Cameron und Trivedi - Microeconometrics unter Verwendung von Stata diskutieren verschiedene Bootstrap-Techniken und die Show-Stata-Codedateien, zum Beispiel für Heckmans zweistufigen Schätzer.

Zu Frage 2 .: Der Bootstrap wird tatsächlich sowohl auf die Gleichung der ersten als auch der zweiten Stufe angewendet. Sie können auch nur die zweite Stufe booten, müssen dann aber weitere Annahmen über die Verteilung Ihrer vorhergesagten Variablen treffen (parametrischer Bootstrap). Das heißt, es ist viel einfacher, den zweistufigen Bootstrap durchzuführen.

Zu Frage 1 .:

Codebeispiele (in Stata) für verschiedene Beispiele finden Sie hier (2SLS) oder hier (Heckman)

Hier ist auch eine kleine Übersicht, die kostenlos ist und einige der Themen behandelt, die Sie auch im Cameron and Trivedi-Buch finden können.

Ich muss sagen, ich denke, das Thema ist oft verwirrend, insbesondere wenn Sie mehrere erste Phasen haben. Ich habe hier auch eine offene Frage , aber ohne Antworten.

Update: Entschuldigung, ich habe vergessen, den Fall der Paneldaten zu kommentieren. In diesem Fall würde ich in jeder Stufe des zweistufigen Bootstraps einen robusten Cluster-Standardfehler verwenden.

PS: Stata hat eine ziemlich ausgefeilte Hilfedatei zum Bootstrapping, das sollten Sie auch überprüfen.

— Arne Jonas Warnke
quelle