Ausdrücken der LASSO-Regressionsbeschränkung über den Strafparameter


7

Angesichts der beiden äquivalenten Formulierungen des Problems für die LASSO-Regression, und \ min (RSS), so dass \ sum | \ beta_i | \ leq t , wie können wir die eine ausdrücken -zu-eins Korrespondenz zwischen \ lambda und t ?min(RSS+λ|βi|)min(RSS)|βi|tλt



Sie können Lagrange-Multiplikatoren verwenden, um zwischen diesen beiden Formulierungen zu wechseln.

Antworten:


6

Die Antwort auf Ihre Frage ergibt sich aus der Betrachtung der Lagrange-Dualität. Dies wird in dem Beitrag bearbeitet, den ich in meinem Kommentar zum OP-Beitrag als Duplikat betrachte. Im Folgenden erarbeite ich eine aufschlussreichere Ableitung.

Wenn wir wirklich ein Lasso lösen, versuchen wir, und gemeinsam zu minimieren . Das heißt, wir suchen . Dies scheint im Moment nicht genau definiert zu sein, da wir wissen, dass zwischen diesen beiden Zielen eine gewisse Spannung besteht. Dies wird von Optimierungsleuten als Multikriteriumoptimierung bezeichnet . Lassen Sie uns dieses Problem visualisieren, indem wir für viele zeichnen. (Beachten Sie, dass hier , , zufällig initialisiert wurde und der wahre Koeffizient12nyXβ22=RSSβ1argminβ(12nyXβ22,β1)(12nyXβ22,β1)βp=5n=100Xβ hat ungefähr ein Viertel seiner Einträge gleich Null.)

erreichbare Objektwerte

Hier ist und . Das heißt, die vertikale Achse misst die fehlende Anpassung und die horizontale Achse misst die Größe des Koeffizienten. Beachten Sie, dass ich aus Gründen der Klarheit den oberen Rand des Bildes abgeschnitten habe.F=β1G=12nyXβ22

Die Punkte unten links im Diagramm sind diejenigen, an denen wir interessiert sind. Diese entsprechen den Werten von , die beide eine kleine Norm und einen kleinen Fehler aufweisen. Tatsächlich gibt es für die Punkte unten links keine , die dieselbe Anpassung und kleinere Größe oder dieselbe Größe mit besserer Anpassung haben. Um zwischen diesen Punkten zu wählen, die als paretooptimale Punkte bezeichnet werden , müssen wir die relative Bedeutung der Anpassung und Größe bestimmen, unsere beiden Ziele. Dies sollte uns an die Abstimmungsparameter oder im unbeschränkten bzw. eingeschränkten Lasso erinnern . Unten zeichnen wir einige Lasso-Lösungen, die aus glmnet berechnet wurden und dem obigen Diagramm auferlegt sind, grün auf.β1βλC

Lasso-Lösungen auferlegt

Beachten Sie, dass Lasso genau die paretooptimalen Punkte gefunden hat. Dies ist jedoch sehr überraschend! Wie wurde ein mehrdimensionales Objektiv durch ein eindimensionales Objektiv optimiert? Der Prozess heißt Skalarisierung: Wir nehmen die Gewichte und bilden das ProblemWenn beide Ziele konvex sind, was sie hier sind, findet dieses skalierte Problem alle paretooptimalen Punkte.μ1,μ20

argminβRpμ1(12nyXβ22)+μ2β1.

Unter der Annahme von , was voraussetzt, dass beide Ziele berücksichtigt werden, und dem Schreiben von haben wir, dass dies nur das Lasso in seiner üblichen Form. Durch die Lagrange-Dualität wissen wir, dass es von existiert, so dass wir stattdessen das äquivalente Problem lösen können wobei .μ10λ=μ2μ1β^unc=argminβRp12nyXβ22+λβ1,Cβ^con=argminβ:β1C12nyXβ22,β^con=β^unc

Nachdem wir besser verstanden haben, was wir zu lösen versuchen, und eine gute Visualisierung haben, konzentrieren wir uns nun darauf, eine Beziehung zwischen den Abstimmungsparametern und .λC

Für einen gegebenen Wert von ist die eingeschränkte Lasso-Schätzung Einer dieser grünen Punkte in der obigen Darstellung. Die Art und Weise, wie Gefunden werden kann, besteht darin, uns auf fixieren (für der Koeffizient der kleinsten Quadrate) und nach unten, bis wir das niedrigstmögliche Maß für mangelnde Passform erhalten. Das heißt,Wie wir oben gesehen haben, entspricht einer Skalarisierung unseres Vektorobjektivs und entspricht daher der Steigung an diesem Punkt:Cβ^con.β^con.β1=min{C,β^LS1}β^LS

C=β^unc1.
λ
λ=12nyXβ22β1β=β^con
(Beachten Sie, dass diese Formel nur bis zu Konstanten korrekt zu sein scheint. Das richtige kann schnell aus den Bedingungen erster Ordnung ermittelt werden, aber ich würde gerne einen Weg finden, es zu motivieren direkt aus diesem Framework.) Dies entspricht (über die Kettenregel) der ersten Antwort in dem Beitrag, den ich als mögliches Duplikat verlinkt habe.λ
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.