Vor einigen Tagen gab es eine ähnliche Frage mit der entsprechenden Referenz:
- Belloni, A., Chernozhukov, V. und Hansen, C. (2014) "Rückschluss auf Behandlungseffekte nach Auswahl unter hochdimensionalen Kontrollen", Review of Economic Studies, 81 (2), S. 608-50 ( link )
Zumindest für mich ist das Papier eine ziemlich schwierige Lektüre, da die Beweise hinter diesem relativ einfachen Dokument ziemlich aufwändig sind. Wenn Sie ein Modell wie schätzen
yich= α Tich+ X′ichβ+ ϵich
wobei Ihr Ergebnis ist, interessierender Behandlungseffekt ist und ein Vektor potenzieller Kontrollen ist. Der Zielparameter ist . Unter der Annahme, dass der größte Teil der Variation in Ihrem Outcome durch die Behandlung und eine spärliche Reihe von Kontrollen erklärt wird, haben Belloni et al. (2014) entwickeln eine doppelt robuste Auswahlmethode, die korrekte Punktschätzungen und gültige Konfidenzintervalle liefert. Diese Sparsity-Annahme ist jedoch wichtig.T i X i αyichTichXichα
Wenn einige wichtige Prädiktoren für , Sie jedoch nicht wissen, um welche es sich handelt (entweder einzelne Variablen, ihre Polynome höherer Ordnung oder Wechselwirkungen mit anderen Variablen), können Sie eine Auswahlprozedur in drei Schritten durchführen:y iXichyich
- Regression von auf , ihre Quadrate und Interaktionen und Auswahl wichtiger Prädiktoren mit LASSOX iyichXich
- Regression von auf , ihre Quadrate und Interaktionen und Auswahl wichtiger Prädiktoren mit LASSOX iTichXi
- Regression auf und alle Variablen, die in einem der ersten beiden Schritte ausgewählt wurdenT iyiTi
Sie liefern Beweise, warum dies funktioniert und warum Sie mit dieser Methode die richtigen Konfidenzintervalle usw. erhalten. Sie zeigen auch, dass Sie falsche Punktschätzungen und falsche Konfidenzintervalle erhalten, wenn Sie nur eine LASSO-Auswahl für die oben genannte Regression durchführen und dann das Ergebnis für die Behandlung und die ausgewählten Variablen regressieren, wie Björn bereits sagte.
Dies hat zwei Gründe: Wenn Sie Ihr ursprüngliches Modell, bei dem die Variablenauswahl von Intuition oder Theorie geleitet wurde, mit dem doppelt robusten Auswahlmodell vergleichen, erhalten Sie eine Vorstellung davon, wie gut Ihr erstes Modell war. Vielleicht hat Ihr erstes Modell einige wichtige Quadrat- oder Interaktionsterme vergessen und leidet daher unter einer falsch spezifizierten funktionalen Form oder ausgelassenen Variablen. Zweitens haben die Patentschriften von Belloni et al. (2014) -Methode kann die Inferenz auf Ihren Zielparameter verbessern, da redundante Regressoren in ihrem Verfahren bestraft wurden.