LASSO / LARS vs. GETS-Methode (General to Specific)

Ich habe mich gefragt, warum LASSO- und LARS-Modellauswahlmethoden so beliebt sind, obwohl sie im Grunde genommen nur Variationen der schrittweisen Vorauswahl sind (und daher unter Pfadabhängigkeit leiden).

Warum werden GETS-Methoden (General to Specific) für die Modellauswahl meist ignoriert, obwohl sie besser sind als LARS / LASSO, weil sie nicht unter dem Problem der schrittweisen Regression leiden? ( Basisreferenz für GETS: http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf - Der neueste Algorithmus in diesem Handbuch beginnt mit einer umfassenden Modell- und Baumsuche, die Pfadabhängigkeiten vermeidet oft besser als LASSO / LARS).

Es scheint nur seltsam, LARS / LASSO scheinen so viel mehr Aufmerksamkeit und Zitate zu bekommen als General to Specific (GETS), hat jemand irgendwelche Gedanken?

Nicht versuchen, eine hitzige Debatte zu beginnen, sondern nach einer rationalen Erklärung dafür suchen, warum sich die Literatur eher auf LASSO / LARS als auf GETS zu konzentrieren scheint, und nur wenige Leute weisen tatsächlich auf Mängel von LASSO / LARS hin.

— Tortilla
quelle

Was meinst du mit wegabhängig hier? Gibt es noch einen maßgeblichen Hinweis, den Sie für GETS geben können? Das kenne ich nicht.

— Kardinal

Hier ist eine bessere, "maßgeblichere" Referenz, in der auch Lasso erwähnt wird: degruyter.com/view/j/jtse.2011.3.1/jtse.2011.3.1.1097/… .

— Tortilla

Wollte auch hinzufügen, was ich meinte: Sie fügen also signifikante Regressoren nacheinander hinzu, aber dieser Ansatz erlaubt es Ihnen nicht, eine zu löschen, wenn aufgrund der Korrelation zwischen Regressoren eine unbedeutend werden kann. Wenn also einer hinzugefügt wird, besteht die Pfadabhängigkeit, dass dieser Regressor jetzt eingestellt ist und nicht gelöscht werden kann. Ist das nicht der Fall?

— Tortilla

Es ist möglich, dass Variablen auf halbem Weg durch das Lasso fallen gelassen werden, wenn der Koeffizientenpfad auf diesem Weg Null kreuzt. Kennen Sie das von Efron et al. Originalartikel über LARS? Es erklärt dies sehr detailliert mit einem schönen geometrischen Geschmack.

— Kardinal

Ich denke, das Lasso ist beliebt, weil es das Modellauswahlproblem von einem Hypothesentest zu einem Parameterschätzungsproblem effektiv umformt.

— Wahrscheinlichkeitslogik

Antworten:

Haftungsausschluss: Ich kenne die Arbeiten zur Modellauswahl unter anderem von David F. Hendry nur aus der Ferne. Ich weiß jedoch von angesehenen Kollegen, dass Hendry sehr interessante Fortschritte bei der Modellauswahl innerhalb der Ökonometrie gemacht hat. Zu beurteilen, ob die statistische Literatur seiner Arbeit zur Modellauswahl nicht genügend Beachtung schenkt, würde meinerseits viel mehr Arbeit erfordern.

Es ist jedoch interessant zu verstehen, warum eine Methode oder Idee viel mehr Aktivität erzeugt als andere. Zweifellos gibt es auch in der Wissenschaft Aspekte der Mode. Aus meiner Sicht hat Lasso (und seine Freunde) den großen Vorteil, ein sehr einfach auszudrückendes Optimierungsproblem zu lösen. Dies ist der Schlüssel zum detaillierten theoretischen Verständnis der Lösung und der entwickelten effizienten Algorithmen. Das kürzlich erschienene Buch Statistik für hochdimensionale Daten von Bühlmann und Van De Geer zeigt, wie viel über Lasso bereits bekannt ist.

Sie können endlose Simulationsstudien durchführen und natürlich die Methoden anwenden, die Sie für eine bestimmte Anwendung am relevantesten und geeignetsten finden. Für Teile der statistischen Literatur müssen jedoch auch wesentliche theoretische Ergebnisse erzielt werden. Dass Lasso viel Aktivität hervorgerufen hat, zeigt, dass es theoretische Fragen gibt, die tatsächlich angegangen werden können, und dass sie interessante Lösungen bieten.

Ein weiterer Punkt ist, dass Lasso oder Variationen in vielen Fällen gut funktionieren . Ich bin einfach nicht davon überzeugt, dass es richtig ist, dass Lasso durch andere Methoden so leicht übertroffen wird, wie es das OP vorschlägt. Vielleicht in Bezug auf die (künstliche) Modellauswahl, aber nicht in Bezug auf die prädiktive Leistung. Keine der genannten Referenzen scheint Gets und Lasso wirklich zu vergleichen.

— NRH
quelle

Warum sind LASSO- und LARS-Modellauswahlmethoden so beliebt, obwohl es sich im Grunde nur um Variationen der schrittweisen Vorauswahl handelt?

Es gibt einen Unterschied zwischen der Auswahl der LASSO- und der (GETS) -Untergruppe: LASSO verkleinert die Koeffizienten datenabhängig gegen Null, während dies bei der Auswahl der (GETS) -Untergruppe nicht der Fall ist. Dies scheint ein Vorteil von LASSO gegenüber der Auswahl von Teilmengen (GETS) zu sein, auch wenn dies gelegentlich fehlschlägt (es ist eine Parameteranpassung erforderlich, die normalerweise über eine Kreuzvalidierung erfolgt, und gelegentlich kann es vorkommen, dass die Abstimmung schlecht ist).

(GETS) Methoden <...> sind besser als LARS / LASSO

Die Leistung von GETS scheint von vergleichbarer Qualität zu sein wie die von LASSO, wenn sie von unparteiischen (?) Forschern durchgeführt wird (obwohl dies in den Veröffentlichungen, in denen eine neue Version von GETS vorgeschlagen wird, nicht unbedingt der Fall ist - aber das ist, was Sie erwarten würden). siehe einige referenzen in diesem thread .

Vielleicht erzielen Sir Hendry & Co aufgrund der Besonderheiten ihrer Anwendung (meist makroökonomische Zeitreihenmodellierung) gute Ergebnisse mit GETS? Aber warum könnte das so sein? Dies ist eine separate Frage .

— Richard Hardy
quelle