Diese Methoden - das Lasso und das elastische Netz - sind aus den Problemen der Merkmalsauswahl und -vorhersage entstanden. Ich denke, durch diese beiden Linsen kann eine Erklärung gefunden werden.
Matthew Gunn erklärt in seiner Antwort freundlich, dass diese beiden Ziele unterschiedlich sind und oft von verschiedenen Personen aufgegriffen werden. Glücklicherweise können die Methoden, an denen wir interessiert sind, in beiden Bereichen gute Ergebnisse erzielen.
Merkmalsauswahl
Lassen Sie uns zunächst über die Funktionsauswahl sprechen. Wir sollten zuerst das elastische Netz aus der Perspektive des Lassos motivieren. Das heißt, um Hastie und Zou zu zitieren : "Wenn es eine Gruppe von Variablen gibt, unter denen die paarweisen Korrelationen sehr hoch sind, dann neigt das Lasso dazu, nur eine Variable aus der Gruppe auszuwählen, und es ist egal, welche ausgewählt wird." Dies ist zum Beispiel ein Problem, weil es bedeutet, dass wir mit dem Lasso wahrscheinlich kein Element der wahren Unterstützung finden - nur eines, das in hohem Maße damit korreliert. (Das Papier erwähnt, dass dies im LARS-Papier bewiesen ist, das ich noch nicht gelesen habe.) Auf die Schwierigkeit der Wiederherstellung der Unterstützung bei vorhandener Korrelation wird auch von Wainwright hingewiesen . wenn es eine hohe Korrelation zwischen der wahren Unterstützung und ihrer Ergänzung gibt.0,5
Nun ermutigt die l2-Strafe im elastischen Netz Merkmale, deren Koeffizienten nur durch den Verlust als nicht unterscheidbar behandelt werden, und die l1-Strafe, den gleichen geschätzten Koeffizienten zu haben. Wir können dies leicht erkennen, indem wir feststellen, dass erfüllt | a | = | b( a , b ) = argMindestein′, b′: c = | ein′| + | b′|( a′)2+ ( b′)2. Aufgrund dessen bewirkt das elastische Netz, dass es weniger wahrscheinlich ist, dass wir "versehentlich" eine Koeffizientenschätzung verschwinden lassen, die in der wahren Unterstützung liegt. Das heißt, die tatsächliche Unterstützung ist eher in der geschätzten Unterstützung enthalten. Das ist gut! Es bedeutet zwar, dass es mehr falsche Entdeckungen gibt, aber das ist ein Preis, den die meisten Menschen zu zahlen bereit sind.| a | = | b |
Im Übrigen ist darauf hinzuweisen, dass stark korrelierte Merkmale dazu neigen, sehr ähnliche Koeffizientenschätzungen zu haben, sodass wir Gruppierungen von Merkmalen innerhalb der geschätzten Unterstützung erkennen können, die die Antwort in ähnlicher Weise beeinflussen.
Prognose
α = 1
Lederer, Yu und Gaynanova zeigen unter keinen Umständen , dass sowohl für das Lasso als auch für das elastische Netz der Vorhersagefehler von l2 durch dieselbe Größe begrenzt sein kann. Es ist nicht unbedingt wahr, dass ihre Schranke eng ist, aber es könnte interessant sein, darauf hinzuweisen, dass Orakel-Ungleichungen in der statistischen Literatur ein Standardverfahren zur Quantifizierung der Vorhersageleistung von Schätzern zu sein scheinen - vielleicht, weil die Verteilungen so kompliziert sind! Es ist auch erwähnenswert, dass Lederer (1) (2) einige Artikel über Lasso-Vorhersagen in Gegenwart korrelierter Merkmale hat.
Zusammenfassung
Zusammenfassend sind die Probleme von Interesse, dass die tatsächliche Unterstützung innerhalb der geschätzten Unterstützung und Vorhersage liegt. Für die Wiederherstellung des Supports gibt es streng nachgewiesene Garantien (durch Wainwright), dass das Lasso die richtigen Merkmale für das Modell auswählt, unter der Annahme einer geringen Korrelation zwischen dem tatsächlichen Support und seiner Ergänzung. Bei Vorhandensein einer Korrelation können wir jedoch auf das elastische Netz zurückgreifen, um wahrscheinlicher zu sein, dass die Merkmale in der wahren Unterstützung zu den von ihm ausgewählten gehören. (Beachten Sie, dass wir hier die Abstimmungsparameter sorgfältig auswählen müssen.) Zur Vorhersage, wenn wir die Abstimmungsparameter durch Kreuzvalidierung auswählen, ist es intuitiv sinnvoll, dass das elastische Netz eine bessere Leistung als das Lasso aufweist - insbesondere bei vorhandener Korrelation .
Abgesehen von Vorhersagen und Formalitäten, was haben wir gelernt? Wir haben von der wahren Unterstützung erfahren.
Vertrauensintervalle
Es ist darauf hinzuweisen, dass sich in den letzten 2 Jahren eine Menge an gültigen Schlussfolgerungen für das Lasso geändert hat. Insbesondere liefert die Arbeit von Lee, Sun, Sun und Taylor einen genauen Rückschluss auf die Koeffizienten des Lassos, der von dem gewählten Modell abhängig ist. (Die Ergebnisse zur Inferenz in Lasso für die wahren Koeffizienten lagen zum Zeitpunkt der Veröffentlichung von OP vor, und sie sind in der verlinkten Veröffentlichung gut zusammengefasst.)