Warum wird die Auswahl der besten Teilmenge im Vergleich zu Lasso nicht bevorzugt?


13

Ich lese über die Auswahl der besten Teilmengen im Buch Elemente des statistischen Lernens. Wenn ich 3 Prädiktoren , erstelle ich 2 3 = 8 Teilmengen:x1,x2,x323=8

  1. Teilmenge ohne Prädiktoren
  2. Teilmenge mit Prädiktor x1
  3. Teilmenge mit Prädiktor x2
  4. Teilmenge mit Prädiktor x3
  5. Teilmenge mit Prädiktoren x1,x2
  6. Teilmenge mit Prädiktoren x1,x3
  7. Teilmenge mit Prädiktoren x2,x3
  8. Teilmenge mit Prädiktoren x1,x2,x3

Dann teste ich alle diese Modelle anhand der Testdaten, um das beste auszuwählen.

Meine Frage ist nun, warum die Auswahl der besten Teilmenge im Vergleich zu zB Lasso nicht bevorzugt wird.

Wenn ich die Schwellenwertfunktionen von bester Teilmenge und Lasso vergleiche, sehe ich, dass die beste Teilmenge einige der Koeffizienten auf Null setzt, wie Lasso. Der andere Koeffizient (ungleich Null) hat jedoch immer noch die ols-Werte, sie sind unbiasd. Während im Lasso einige der Koeffizienten Null sind und die anderen (nicht Nullen) eine gewisse Verzerrung haben. Die folgende Abbildung zeigt es besser: Bildbeschreibung hier eingeben

Auf dem Bild liegt der Teil der roten Linie in der besten Teilmenge auf der grauen. Der andere Teil liegt auf der x-Achse, wo einige der Koeffizienten Null sind. Die graue Linie definiert die unvoreingenommenen Lösungen. Im Lasso wird eine gewisse Vorspannung durch . Aus dieser Figur sehe ich, dass die beste Teilmenge besser ist als Lasso! Was sind die Nachteile der Verwendung der besten Teilmenge?λ


1
.. und wie sehen die Kurven aus, wenn Sie aufgrund der Zufälligkeit in den Daten eine der vielen falschen Teilmengen auswählen und die zugehörigen Koeffizientenschätzungen relativ zu ihren Standardfehlern weit von Null entfernt sind?
Jbowman

2
@jbowman Ich verstehe das nicht ganz genau. Warum veranlasst mich die Zufälligkeit der Daten, die falsche auszuwählen? Wenn ich die Kreuzvalidierung verwenden würde, um die beste Teilmenge auszuwählen, hätte ich geringere Chancen, die falsche Teilmenge auszuwählen.
Ville

1
Sie scheinen "weniger Voreingenommenheit" mit "besser" gleichzusetzen. Was bringt Sie dazu, so viel Wert auf Unparteilichkeit zu legen?
Matthew Drury

Antworten:


16

Bei der Auswahl von Teilmengen sind die Nicht-Null-Parameter nur dann unverzerrt, wenn Sie eine Obermenge des richtigen Modells ausgewählt haben, dh wenn Sie nur Prädiktoren entfernt haben, deren wahre Koeffizientenwerte Null sind. Wenn Sie nach Ihrem Auswahlverfahren einen Prädiktor mit einem echten Koeffizienten ungleich Null ausschließen, werden alle Koeffizientenschätzungen verzerrt. Dies ist ein Widerspruch zu Ihrem Argument, wenn Sie der Ansicht sind, dass die Auswahl in der Regel nicht perfekt ist.

Um sich also einer unvoreingenommenen Modellschätzung "sicher" zu sein, sollten Sie sich auf die Seite von mehr oder sogar allen potenziell relevanten Prädiktoren begeben. Das heißt, Sie sollten überhaupt nicht auswählen.

Warum ist das eine schlechte Idee? Wegen des Bias-Varianz-Kompromisses. Ja, Ihr großes Modell wird unvoreingenommen sein, aber es wird eine große Varianz aufweisen, und die Varianz wird den Vorhersage- (oder anderen) Fehler dominieren.

Daher ist es besser , dass Parameterschätzungen zu akzeptieren , werden vorgespannt werden , aber geringere Varianz (Regularisierung), anstatt Hoffnung , dass unsere Subgruppenauswahl nur echte Null Parameter entfernt , so dass wir eine unvoreingenommene Modell mit größerer Varianz haben.

λλ0pλλ0β^pβ^p=0β^p=β^pOLS

Dies kann hilfreich sein: Warum funktioniert das Schrumpfen?


Hmm. Ich glaube nicht, dass dies die Frage beantwortet, warum die beste Teilmenge schlechter ist als Lasso (was hier die Hauptfrage ist).
Amöbe sagt Reinstate Monica

@amoeba: möchtest du das näher erläutern?
Stephan Kolassa

Nun, ich verstand die Frage, warum Lasso der besten Teilmenge vorgezogen wird. Stellen Sie sich vor, wir fügen beide in eine Kreuzvalidierungsschleife ein und stimmen dann entweder den Lasso-Parameter ab oder finden die beste Teilmenge. Das Lasso wird normalerweise empfohlen. Ich habe die Frage so verstanden, dass ich fragte, warum? (siehe zB den Titel des Q) und ich bin mir nicht sicher, ob deine Antwort das wirklich beantwortet. Oder habe ich deine Antwort falsch verstanden?
Amöbe sagt Reinstate Monica

1
λλ0ppλλ0β^p

1
Stimmen Sie zu, dass diese Antwort die Frage nicht wirklich beantwortet - ich habe meine
Ansicht

11

Wenn die beste Teilmenge gefunden werden kann, ist es in der Tat besser als die LASSO, wenn (1) die Variablen ausgewählt werden, die tatsächlich zur Anpassung beitragen, (2) die Variablen nicht ausgewählt werden, die nicht zur Anpassung beitragen, (3) Vorhersagegenauigkeit und (4) Erzeugen von im wesentlichen unverzerrten Schätzungen für die ausgewählten Variablen. Ein kürzlich veröffentlichtes Papier, das für die überlegene Qualität der besten Teilmenge gegenüber LASSO sprach, ist das von Bertsimas et al. (2016) "Beste Teilmengenauswahl über ein modernes Optimierungsobjektiv" . Ein anderes älteres Beispiel (zur Entfaltung von Spitzenzügen), bei dem die beste Untergruppe besser war als LASSO oder Ridge, ist das von de Rooi & Eilers (2011).

L0L1L0LqEine durch die Norm bestrafte Regression mit q nahe 0 wäre im Prinzip näher an der Auswahl der besten Teilmenge als LASSO, dies ist jedoch kein konvexes Optimierungsproblem mehr und daher recht schwierig in der Anpassung .

Um die Verzerrung des LASSO zu verringern, kann man abgeleitete mehrstufige Ansätze verwenden, z. B. das adaptive LASSO (bei dem die Koeffizienten auf der Grundlage einer vorherigen Schätzung aus einer Anpassung der kleinsten Quadrate oder der Kammregression differenziell benachteiligt werden) oder das entspannte LASSO (eine einfache Lösung besteht darin, a Anpassung der kleinsten Quadrate der vom LASSO ausgewählten Variablen). Im Vergleich zur besten Teilmenge wählt LASSO jedoch tendenziell etwas zu viele Variablen aus. Die beste Teilmengenauswahl ist besser, aber schwerer zu treffen.

L0 Aufsatz "Ein adaptives Kammverfahren für die L0-Regularisierung" von Frommlet & Nuel (2016) beschrieben ist . Beachten Sie, dass Sie auch bei der Auswahl der besten Teilmenge entweder eine Kreuzvalidierung oder ein Informationskriterium (angepasstes R2, AIC, BIC, mBIC ...) verwenden müssen, um zu bestimmen, für welche Anzahl von Prädiktoren Sie die beste Prognoseleistung / Erklärungsstärke erhalten Die Anzahl der Variablen in Ihrem Modell, die zur Vermeidung einer Überanpassung unbedingt erforderlich ist. Die Arbeit "Erweiterte Vergleiche der besten Teilmengenauswahl, schrittweisen Vorwärtsauswahl und des Lassos" von Hastie et al. (2017)bietet einen umfassenden Vergleich der besten Teilmenge von LASSO und einiger LASSO-Varianten wie dem entspannten LASSO, und sie behaupten, dass das entspannte LASSO unter den verschiedensten Umständen die höchste Modellvorhersagegenauigkeit erbracht hat, dh zu einem anderen Ergebnis gekommen ist als Bertsimas. Die Entscheidung, welche Variable die beste ist, hängt jedoch in hohem Maße davon ab, was Sie für die beste halten (z. B. höchste Vorhersagegenauigkeit oder beste Auswahl relevanter Variablen ohne Berücksichtigung irrelevanter Variablen; Kammregression wählt z. B. in der Regel viel zu viele Variablen aus, die Vorhersagegenauigkeit jedoch für Fälle mit hochkollineare Variablen können trotzdem sehr gut sein).

Für ein sehr kleines Problem mit 3 Variablen, wie Sie es beschreiben, ist es klar, dass die Auswahl der besten Teilmenge die bevorzugte Option ist.


1
Was bedeutet "besser" in der Phrase "es ist besser als Lasso"?
Matthew Drury

1
kλkkk

Bearbeitet meine Antwort ein wenig, um mehr Details zu geben ...
Tom Wenseleers

Ich glaube, keine der Antworten befasst sich mit dem Problem der Stabilität. Wie schrittweise und alle möglichen Regressionen von Teilmengen, lassoist es notorisch instabil. Mit anderen Worten, wenn Sie den gesamten Prozess booten, wird die Liste der ausgewählten Funktionen zu beliebig.
Frank Harrell

Ja, die von LASSO ausgewählten Variablen können instabil sein, und dies gilt umso mehr für die beste Regression von Teilmengen - die elastische Nettoregression ist in dieser Hinsicht ein bisschen besser -, die dann tendenziell viel zu viele Variablen enthält, aber in einer mehr ausgewählten stabiler Weg und kann eine bessere Vorhersagegenauigkeit bei hoher Kollinearität ergeben. Viel hängt jedoch davon ab, was das wichtigste Kriterium für Ihre Anwendung ist - die Vorhersagegenauigkeit, die falsch-positive Rate der Einbeziehung irrelevanter Variablen oder die falsch-negative Rate der
Nichteinbeziehung hochrelevanter
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.