Was ist ein Differenzenunterschiedsschätzer
? Der Differenzenunterschiedsschätzer (Difference in Differences, DiD) ist ein Tool zur Schätzung der Behandlungseffekte, mit dem die Unterschiede vor und nach der Behandlung im Ergebnis einer Behandlung und einer Kontrollgruppe verglichen werden können. Im Allgemeinen sind wir daran interessiert, die Auswirkung einer Behandlung (z. B. Gewerkschaftsstatus, Medikamente usw.) auf ein Ergebnis (z. B. Löhne, Gesundheit usw.) wie in
wobei einzelne feste Effekte sind (Eigenschaften von Individuen, die sich im Laufe der Zeit nicht ändern), sind zeitlich feste Effekte, sind zeitvariable Kovariaten wie das Alter von Individuen undY i Y i t = α i + λ t + ρ D i t + X ' i t β + ε i t α i λ t X i t ε i t i t D i tDiYi
Yit=αi+λt+ρDit+X′itβ+ϵit
αiλtXitϵit ist ein Fehlerbegriff. Individuen und Zeit werden mit bzw. indiziert . Wenn es eine Korrelation zwischen den festen Effekten und wird die Schätzung dieser Regression über OLS verzerrt, da die festen Effekte nicht kontrolliert werden. Dies ist die typische
ausgelassene variable Vorspannung .
itDit
Um die Wirkung einer Behandlung zu sehen, möchten wir den Unterschied zwischen einer Person in einer Welt, in der sie die Behandlung erhalten hat, und einer, in der sie keine Behandlung erhält, kennen. Natürlich ist in der Praxis immer nur eine davon zu beobachten. Deshalb suchen wir im Ergebnis Menschen mit den gleichen Vorbehandlungstrends. Angenommen , wir haben zwei Perioden und zwei Gruppen . Unter der Annahme, dass sich die Trends in den Behandlungs- und Kontrollgruppen ohne Behandlung auf dieselbe Weise fortgesetzt hätten wie zuvor, können wir den Behandlungseffekt wie abschätzen:
t=1,2s=A,B
ρ=(E[Yist|s=A,t=2]−E[Yist|s=A,t=1])−(E[Yist|s=B,t=2]−E[Yist|s=B,t=1])
Grafisch würde das ungefähr so aussehen:
Sie können diese Mittelwerte einfach von Hand berechnen, dh das mittlere Ergebnis der Gruppe in beiden Perioden ermitteln und deren Differenz ermitteln. Ermitteln Sie dann das mittlere Ergebnis der Gruppe in beiden Perioden und nehmen Sie die Differenz. Dann nimm den Unterschied in den Unterschieden und das ist der Behandlungseffekt. Es ist jedoch praktischer, dies in einem Regressionsframework zu tun, da dies Ihnen ermöglichtAB
- auf Kovariaten kontrollieren
- um Standardfehler für den Behandlungseffekt zu erhalten, um zu sehen, ob er signifikant ist
Dazu können Sie eine von zwei gleichwertigen Strategien anwenden. Generieren Sie einen Kontrollgruppen-Dummy der gleich 1 ist, wenn sich eine Person in Gruppe und 0 befindet, und generieren Sie einen Zeit-Dummy der gleich 1 ist, wenn und 0 ist, und dann
treatiAtimett=2
Yit=β1+β2(treati)+β3(timet)+ρ(treati⋅timet)+ϵit
Oder Sie generieren einfach einen Dummy der eins entspricht, wenn sich eine Person in der Behandlungsgruppe befindet UND der Zeitraum der Nachbehandlungszeitraum ist und ansonsten null. Dann würden Sie
Y i t = & bgr; 1 & ggr; s + & bgr; 2 & lgr; t + & rgr; T i t + & lgr ; i tTit
Yit=β1γs+β2λt+ρTit+ϵit
Dabei ist wieder ein Dummy für die Kontrollgruppe und sind . Die zwei Regressionen ergeben für zwei Perioden und zwei Gruppen die gleichen Ergebnisse. Die zweite Gleichung ist jedoch allgemeiner, da sie sich leicht auf mehrere Gruppen und Zeiträume erstreckt. In beiden Fällen können Sie auf diese Weise den Unterschied in den Differenzparametern so abschätzen, dass Sie Steuervariablen einbeziehen können (ich habe diese aus den obigen Gleichungen ausgelassen, um sie nicht unübersichtlich zu machen, aber Sie können sie einfach einbeziehen) und Standardfehler erhalten für die Schlussfolgerung.λ tγsλt
Warum ist der Differenzenschätzer nützlich?
Wie bereits erwähnt, ist DiD eine Methode zur Abschätzung von Behandlungseffekten mit nicht experimentellen Daten. Das ist die nützlichste Funktion. DiD ist auch eine Version der Schätzung fester Effekte. Während das Modell mit festen Effekten , geht DiD von einer ähnlichen Annahme aus, aber auf Gruppenebene ist . Der erwartete Wert des Ergebnisses ist hier also die Summe aus einer Gruppe und einem Zeiteffekt. Was ist der Unterschied? Für Hast du nicht unbedingt Panel - Daten benötigt, solange Ihre wiederholten Querschnitt aus der gleichen Aggregate Einheit gezogen . Dadurch kann DiD auf ein breiteres Datenfeld angewendet werden als die Standardmodelle mit festen Effekten, für die Paneldaten erforderlich sind. E ( Y 0 i t | s , t ) = γ s + λ t sE(Y0it|i,t)=αi+λtE(Y0it|s,t)=γs+λts
Können wir Unterschieden vertrauen?
Die wichtigste Annahme in DiD ist die Annahme der parallelen Trends (siehe Abbildung oben). Vertrauen Sie niemals einer Studie, die diese Trends nicht grafisch zeigt! Papiere in den 1990er Jahren haben sich vielleicht damit abgefunden, aber heutzutage ist unser Verständnis von DiD viel besser. Wenn es kein überzeugendes Diagramm gibt, das die parallelen Trends bei den Vorbehandlungsergebnissen für die Behandlungs- und Kontrollgruppe zeigt, seien Sie vorsichtig. Wenn die Annahme paralleler Trends zutrifft und wir andere zeitvariante Änderungen, die die Behandlung stören könnten, glaubwürdig ausschließen können, ist DiD eine vertrauenswürdige Methode.
Bei der Behandlung von Standardfehlern ist eine weitere Vorsicht geboten. Bei langjährigen Daten müssen Sie die Standardfehler für die Autokorrelation anpassen. In der Vergangenheit wurde dies vernachlässigt, aber seit Bertrand et al. (2004) "Wie sehr sollten wir Differenzen-in-Differenzen-Schätzungen vertrauen?" Wir wissen, dass dies ein Problem ist. In der Arbeit bieten sie verschiedene Abhilfemaßnahmen für den Umgang mit Autokorrelation. Am einfachsten ist es, die einzelnen Panel-Kennungen in Gruppen zusammenzufassen, um eine willkürliche Korrelation der Residuen zwischen den einzelnen Zeitreihen zu ermöglichen. Dies korrigiert sowohl die Autokorrelation als auch die Heteroskedastizität.
Weitere Referenzen finden Sie in diesen Vorlesungsskripten von Waldinger und Pischke .