Warum bietet das Lasso eine variable Auswahl?


76

Ich habe Elemente des statistischen Lernens gelesen und möchte wissen, warum das Lasso eine variable Auswahl bietet und die Gratregression nicht.

Beide Methoden minimieren die verbleibende Quadratsumme und beschränken die möglichen Werte der Parameter . Für das Lasso ist die Bedingung , während sie für den Kamm für einige ist .β||β||1t||β||2tt

Ich habe das Bild Diamant gegen Ellipse im Buch gesehen und weiß, warum das Lasso die Ecken des eingeschränkten Bereichs treffen kann, was bedeutet, dass einer der Koeffizienten auf Null gesetzt ist. Meine Intuition ist jedoch eher schwach und ich bin nicht überzeugt. Es sollte leicht zu sehen sein, aber ich weiß nicht, warum das so ist.

Ich bin also auf der Suche nach einer mathematischen Begründung oder einer intuitiven Erklärung, warum die Konturen der Restsumme der Quadrate wahrscheinlich die Ecken der eingeschränkten Region treffen (wobei diese Situation unwahrscheinlich ist, wenn die Einschränkung ist ).||β||1||β||2


Alle Antworten unten sind gute Erklärungen. Aber ich habe einen Artikel mit visueller Darstellung veröffentlicht. Es folgt der Link medium.com/@vamsi149/…
solver149

Antworten:


70

Betrachten wir ein sehr einfaches Modell: , mit einer L1-Strafe für und einer Least-Squares-Loss-Funktion für . Wir können den zu minimierenden Ausdruck wie folgt erweitern:y=βx+eβ^e^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

Nehmen wir an, dass die Lösung der kleinsten Quadrate eine ist, was der Annahme entspricht, dass , und sehen wir, was passiert, wenn wir die L1-Strafe hinzufügen. Mit , , also ist die Strafe gleich . Die Ableitung der Zielfunktion wrt lautet:β^>0yTx>0β^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

die offenbar Lösung hat . β^=(yTxλ)/(xTx)

Offensichtlich können wir durch Erhöhen von auf Null setzen (bei ). Sobald jedoch , wird die Erhöhung von nicht negativ, da die Ableitung der Zielfunktion bei loser Schreibweise zu negativ wird:λβ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

wo der Flip im Vorzeichen von auf den absoluten Wert der Strafzeit zurückzuführen ist; wenn negativ wird, wird der Strafterm gleich und die WRT - Derivat unter in Ergebnisse . Dies führt zu der Lösung , die offensichtlich nicht mit übereinstimmt (vorausgesetzt, die Lösung der kleinsten Quadrate ist . was impliziert, dass undλβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). Es gibt eine Zunahme der L1-Strafe UND eine Zunahme des quadratischen Fehlerausdrucks (wenn wir uns weiter von der Lösung der kleinsten Quadrate entfernen), wenn wir von auf , also tun wir das nicht, sondern nur bleibe bei .β^0<0β^=0

Es sollte intuitiv klar sein, dass dieselbe Logik mit entsprechenden Vorzeichenänderungen für eine Lösung der kleinsten Quadrate mit . β^<0

Mit der Strafe die kleinsten Fehlerquadrate wird die Ableitung jedoch zu:λβ^2

2yTx+2xTxβ^+2λβ^

die offenbar Lösung hat . Offensichtlich wird kein Anstieg von dies ganz auf Null treiben. Die L2-Strafe kann daher nicht als ein variables Auswahlwerkzeug ohne ein mildes Ad-Hockery wie "Setzen Sie die Parameterschätzung auf Null, wenn sie kleiner als " verwendet werden. β^=yTx/(xTx+λ)λϵ

Offensichtlich können sich die Dinge ändern, wenn Sie zu multivariaten Modellen wechseln. Wenn Sie beispielsweise eine Parameterschätzung verschieben, wird möglicherweise eine andere dazu gezwungen, das Vorzeichen zu ändern. Das allgemeine Prinzip ist jedoch dasselbe: Die L2-Straffunktion kann Sie nicht vollständig auf Null bringen. weil es beim Schreiben sehr heuristisch ist und sich tatsächlich zum "Nenner" des Ausdrucks für addiert, aber die L1-Straffunktion kann es, weil es sich tatsächlich zum "Zähler" addiert. β^


Bietet Lasso auch die Auswahl von Merkmalen bei nichtlinearen Modellen, z. B. NN?
Ilya

Eine kleine Folgefrage: Wie kann sein, wenn ein Vektor und ein Skalar ist, den wir variieren können, um die Anpassung zu finden? λ=yTxyTxλ
Jekaterina Kokatjuhha

Ich habe ein univariates Beispiel verwendet, also ist ein Skalar. Wenn Sie ein multivariates Problem lösen, wird mit einem Vektor von Einsen multipliziert, wobei length = die Größe von oder die entsprechend große Identitätsmatrix ist, je nachdem, welches Problem gelöst wird. Sie können das herausfinden, indem Sie zum Beispiel die L2-Norm von = notieren und in den obigen Formeln Substitutionen vornehmen. yTxλβzzTIz
Jbowman

Wäre es möglich (mathematisch?) Zu zeigen, wie das Vorzeichen des Lambdas aufgrund der absoluten Natur der Straffunktion kippt, da ich diesem Bit der Logik nicht folgen kann.
user1420372

@ user1420372 - getan haben; Lass mich wissen was du denkst.
Jbowman

9

Angenommen, wir haben einen Datensatz mit y = 1 und x = [1/10 1/10] (ein Datenpunkt, zwei Merkmale). Eine Lösung besteht darin, eines der Merkmale auszuwählen, eine andere darin, beide Merkmale zu gewichten. Dh wir können entweder w = [5 5] oder w = [10 0] wählen.

Beachten Sie, dass für die L1-Norm beide die gleiche Strafe haben, für die L2-Norm jedoch eine geringere Strafe, wenn das Gewicht stärker verteilt ist.


8

Ich denke, es gibt bereits hervorragende Antworten, aber nur um ein wenig Intuition in Bezug auf die geometrische Interpretation hinzuzufügen:

"Das Lasso führt eine Schrumpfung durch, so dass es" Ecken "in der Abhängigkeit gibt, die in zwei Dimensionen einem Diamanten entsprechen. Wenn die Summe der Quadrate auf eine dieser Ecken trifft, wird der der Achse entsprechende Koeffizient geschrumpft bis Null.L1

Wenn zunimmt, hat der mehrdimensionale Diamant eine zunehmende Anzahl von Ecken, und so ist es sehr wahrscheinlich, dass einige Koeffizienten gleich Null gesetzt werden. Daher führt das Lasso eine Schrumpfung und (effektiv) eine Teilmengenauswahl durch.p

Im Gegensatz zur Auswahl einer Teilmenge führt Ridge eine weiche Schwellwertbildung durch: Wenn der Glättungsparameter variiert wird, bewegt sich der Abtastpfad der Schätzungen kontinuierlich auf Null.

Quelle: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

Der Effekt kann gut sichtbar gemacht werden, wenn die farbigen Linien die Pfade der Regressionskoeffizienten sind, die gegen Null schrumpfen.

Bildbeschreibung hier eingeben

"Die Ridge-Regression verkleinert alle Regressionskoeffizienten in Richtung Null. Das Lasso ergibt in der Regel einen Satz von Null-Regressionskoeffizienten und führt zu einer spärlichen Lösung."

Bildbeschreibung hier eingeben

Quelle: https://onlinecourses.science.psu.edu/stat857/node/158

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.