Wie macht es Sinn, OLS nach der LASSO-Variablenauswahl durchzuführen?


20

Kürzlich habe ich festgestellt, dass es in der angewandten ökonometrischen Literatur nicht ungewöhnlich ist, LASSO durchzuführen, gefolgt von einer OLS-Regression unter Verwendung der ausgewählten Variablen.

Ich habe mich gefragt, wie wir die Gültigkeit eines solchen Verfahrens beurteilen können. Wird es Probleme wie ausgelassene Variablen verursachen? Gibt es Beweise dafür, dass es effizienter ist oder die Ergebnisse besser interpretierbar sind?

Hier sind einige verwandte Diskussionen:

Variable Auswahl mit LASSO

Verwenden von Bäumen nach der Variablenauswahl mit Lasso / Random

Wenn ein solches Vorgehen, wie bereits erwähnt, im Allgemeinen nicht korrekt ist, warum gibt es dann immer noch so viele Forschungen? Kann ich sagen, dass es nur eine Faustregel ist, eine Kompromisslösung, aufgrund einiger der unangenehmen Eigenschaften von LASSO Estimator und der Vorliebe der Menschen für OLS?


Können Sie erklären, was es bedeutet, nach der LASSO eine "OLS-Regression" durchzuführen? Was genau versucht dieser OLS-Schritt zu schätzen, dass der LASSO nicht geschätzt hat?
whuber

2
Es gibt einige aktuelle Arbeitspapiere zu diesem Thema. Viele scheinen die Annahme zu erfordern, dass die Menge der gültigen Variablen spärlich ist. Wenn diese Annahme nicht zutrifft, dann wäre ein ja weggelassener Variablen-Bias vorhanden. Und die Leute mögen Ols, weil sie Coefs als unbefangen interpretieren wollen, ausgehend von Randeffekten der Stichprobe. In diesem Paradigma steckt die Ökonometrie ziemlich fest.
generic_user

4
In diesem kürzlich erschienenen LASSO-Buch (kostenlos online) wird dieses Problem in Abschnitt 11.4 behandelt. Ich habe dies nicht im Detail gelesen, aber die Einleitung endet mit den Worten: "Wenn [eine LASSO-Schätzung] , die die Unterstützung von korrekt wieder herstellt , können wir sehr gut schätzen ... einfach durch Ausführen einer gewöhnlichen Regression der kleinsten Quadrate, die auf diese Untergruppe beschränkt ist. " β*β*β^ββ
GeoMatt22

Antworten:


12

Vor einigen Tagen gab es eine ähnliche Frage mit der entsprechenden Referenz:

  • Belloni, A., Chernozhukov, V. und Hansen, C. (2014) "Rückschluss auf Behandlungseffekte nach Auswahl unter hochdimensionalen Kontrollen", Review of Economic Studies, 81 (2), S. 608-50 ( link )

Zumindest für mich ist das Papier eine ziemlich schwierige Lektüre, da die Beweise hinter diesem relativ einfachen Dokument ziemlich aufwändig sind. Wenn Sie ein Modell wie schätzen

yi=αTi+Xiβ+ϵi

wobei Ihr Ergebnis ist, interessierender Behandlungseffekt ist und ein Vektor potenzieller Kontrollen ist. Der Zielparameter ist . Unter der Annahme, dass der größte Teil der Variation in Ihrem Outcome durch die Behandlung und eine spärliche Reihe von Kontrollen erklärt wird, haben Belloni et al. (2014) entwickeln eine doppelt robuste Auswahlmethode, die korrekte Punktschätzungen und gültige Konfidenzintervalle liefert. Diese Sparsity-Annahme ist jedoch wichtig.T i X i αyiTiXiα

Wenn einige wichtige Prädiktoren für , Sie jedoch nicht wissen, um welche es sich handelt (entweder einzelne Variablen, ihre Polynome höherer Ordnung oder Wechselwirkungen mit anderen Variablen), können Sie eine Auswahlprozedur in drei Schritten durchführen:y iXiyi

  1. Regression von auf , ihre Quadrate und Interaktionen und Auswahl wichtiger Prädiktoren mit LASSOX iyiXi
  2. Regression von auf , ihre Quadrate und Interaktionen und Auswahl wichtiger Prädiktoren mit LASSOX iTiXi
  3. Regression auf und alle Variablen, die in einem der ersten beiden Schritte ausgewählt wurdenT iyiTi

Sie liefern Beweise, warum dies funktioniert und warum Sie mit dieser Methode die richtigen Konfidenzintervalle usw. erhalten. Sie zeigen auch, dass Sie falsche Punktschätzungen und falsche Konfidenzintervalle erhalten, wenn Sie nur eine LASSO-Auswahl für die oben genannte Regression durchführen und dann das Ergebnis für die Behandlung und die ausgewählten Variablen regressieren, wie Björn bereits sagte.

Dies hat zwei Gründe: Wenn Sie Ihr ursprüngliches Modell, bei dem die Variablenauswahl von Intuition oder Theorie geleitet wurde, mit dem doppelt robusten Auswahlmodell vergleichen, erhalten Sie eine Vorstellung davon, wie gut Ihr erstes Modell war. Vielleicht hat Ihr erstes Modell einige wichtige Quadrat- oder Interaktionsterme vergessen und leidet daher unter einer falsch spezifizierten funktionalen Form oder ausgelassenen Variablen. Zweitens haben die Patentschriften von Belloni et al. (2014) -Methode kann die Inferenz auf Ihren Zielparameter verbessern, da redundante Regressoren in ihrem Verfahren bestraft wurden.


"Richtige" Punktschätzungen?
Richard Hardy

3

Das Durchführen einer Variablenauswahl und anschließenden erneuten Durchführen einer Analyse, als ob keine Variablenauswahl stattgefunden hätte und das ausgewählte Modell von Anfang an beabsichtigt gewesen wäre, führt in der Regel zu übertriebenen Effektgrößen, ungültigen p-Werten und Konfidenzintervallen mit geringerer nominaler Abdeckung. Wenn die Stichprobe sehr groß ist und es einige große Effekte und viele Null-Effekte gibt, ist LASSO + OLS möglicherweise nicht allzu stark davon betroffen, aber ansonsten sehe ich keine vernünftige Rechtfertigung und in diesem Fall auch nicht das LASSO Schätzungen sollten auch in Ordnung sein.


1
Aber warum fängt das zweite Modell von vorne an, als ob keine Variablenauswahl passiert wäre? Wählt LASSO nicht eine erklärende Variable mit der besten Vorhersagekraft aus? Übrigens habe ich mir überlegt, LASSO sparse matrix variable wieder in glm zu packen. Jetzt habe ich verstanden, dass LASSO per se eine Regression ist.
Islam
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.