Ausdrücken der LASSO-Regressionsbeschränkung über den Strafparameter

Angesichts der beiden äquivalenten Formulierungen des Problems für die LASSO-Regression, und so dass , wie können wir die eine ausdrücken -zu-eins Korrespondenz zwischen und ? $\min(RSS + \lambda\sum|\beta_i|)$ $\min(RSS)$ $\sum|\beta_i|\leq t$ $\lambda$ $t$

lasso

— Stefan Atanasov
quelle

Mögliches Duplikat von KKT versus uneingeschränkte Formulierung der Lasso-Regression

— user795305

Sie können Lagrange-Multiplikatoren verwenden, um zwischen diesen beiden Formulierungen zu wechseln.

Die Antwort auf Ihre Frage ergibt sich aus der Betrachtung der Lagrange-Dualität. Dies wird in dem Beitrag bearbeitet, den ich in meinem Kommentar zum OP-Beitrag als Duplikat betrachte. Im Folgenden erarbeite ich eine aufschlussreichere Ableitung.

Wenn wir wirklich ein Lasso lösen, versuchen wir, und gemeinsam zu minimieren . Das heißt, wir suchen . Dies scheint im Moment nicht genau definiert zu sein, da wir wissen, dass zwischen diesen beiden Zielen eine gewisse Spannung besteht. Dies wird von Optimierungsleuten als Multikriteriumoptimierung bezeichnet . Lassen Sie uns dieses Problem visualisieren, indem wir für viele zeichnen. (Beachten Sie, dass hier , , zufällig initialisiert wurde und der wahre Koeffizient $\frac{1}{2n} \|y - X \beta\|_2^2 = RSS$ $\|\beta\|_1$ $\arg\min_\beta (\frac{1}{2n} \|y - X \beta\|_2^2, \|\beta\|_1)$ $\left(\frac{1}{2n} \|y - X \beta\|_2^2, \|\beta\|_1 \right)$ $\beta$ $p=5$ $n=100$ $X$ $\beta^*$ hat ungefähr ein Viertel seiner Einträge gleich Null.)

Hier ist und . Das heißt, die vertikale Achse misst die fehlende Anpassung und die horizontale Achse misst die Größe des Koeffizienten. Beachten Sie, dass ich aus Gründen der Klarheit den oberen Rand des Bildes abgeschnitten habe. $F = \|\beta\|_1$ $G = \frac{1}{2n} \|y - X \beta\|_2^2$

Die Punkte unten links im Diagramm sind diejenigen, an denen wir interessiert sind. Diese entsprechen den Werten von , die beide eine kleine Norm und einen kleinen Fehler aufweisen. Tatsächlich gibt es für die Punkte unten links keine , die dieselbe Anpassung und kleinere Größe oder dieselbe Größe mit besserer Anpassung haben. Um zwischen diesen Punkten zu wählen, die als paretooptimale Punkte bezeichnet werden , müssen wir die relative Bedeutung der Anpassung und Größe bestimmen, unsere beiden Ziele. Dies sollte uns an die Abstimmungsparameter oder im unbeschränkten bzw. eingeschränkten Lasso erinnern . Unten zeichnen wir einige Lasso-Lösungen, die aus glmnet berechnet wurden und dem obigen Diagramm auferlegt sind, grün auf. $\beta$ $\ell_1$ $\beta$ $\lambda$ $C$

Beachten Sie, dass Lasso genau die paretooptimalen Punkte gefunden hat. Dies ist jedoch sehr überraschend! Wie wurde ein mehrdimensionales Objektiv durch ein eindimensionales Objektiv optimiert? Der Prozess heißt Skalarisierung: Wir nehmen die Gewichte und bilden das ProblemWenn beide Ziele konvex sind, was sie hier sind, findet dieses skalierte Problem alle paretooptimalen Punkte. $\mu_1, \mu_2 \geq 0$

\arg min_{β \in R^{p}} μ_{1} (\frac{1}{2 n} ‖ y - X β ‖_{2}^{2}) + μ_{2} ‖ β ‖_{1} .

$\arg\min_{\beta \in \mathbb{R}^p} \mu_1 \left( \frac{1}{2n} \|y-X\beta\|_2^2 \right) + \mu_2 \|\beta\|_1.$

Unter der Annahme von , was voraussetzt, dass beide Ziele berücksichtigt werden, und dem Schreiben von haben wir, dass dies nur das Lasso in seiner üblichen Form. Durch die Lagrange-Dualität wissen wir, dass es von existiert, so dass wir stattdessen das äquivalente Problem lösen können wobei . $\mu_1 \neq 0$ $\lambda = \frac{\mu_2}{\mu_1}$ $\hat{\beta}^\textrm{unc} = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y-X\beta\|_2^2 + \lambda \|\beta\|_1,$ $C$ $\hat{\beta}^\textrm{con} = \arg\min_{\beta : \|\beta\|_1 \leq C} \frac{1}{2n} \|y-X\beta\|_2^2,$ $\hat{\beta}^\textrm{con} = \hat{\beta}^\textrm{unc}$

Nachdem wir besser verstanden haben, was wir zu lösen versuchen, und eine gute Visualisierung haben, konzentrieren wir uns nun darauf, eine Beziehung zwischen den Abstimmungsparametern und . $\lambda$ $C$

Für einen gegebenen Wert von ist die eingeschränkte Lasso-Schätzung Einer dieser grünen Punkte in der obigen Darstellung. Die Art und Weise, wie Gefunden werden kann, besteht darin, uns auf fixieren (für der Koeffizient der kleinsten Quadrate) und nach unten, bis wir das niedrigstmögliche Maß für mangelnde Passform erhalten. Das heißt,Wie wir oben gesehen haben, entspricht einer Skalarisierung unseres Vektorobjektivs und entspricht daher der Steigung an diesem Punkt: $C$ $\hat{\beta}^\textrm{con.}$ $\hat{\beta}^\textrm{con.}$ $\|\beta\|_1 = \mathrm{min}\{C, \|\hat{\beta}_\mathrm{LS}\|_1\}$ $\hat{\beta}_\mathrm{LS}$

C = ‖ {\hat{β}}^{unc} ‖_{1} .

$C = \|\hat{\beta}^\textrm{unc}\|_1.$

λ

$\lambda$

λ = - \frac{\partial \frac{1}{2 n} ‖ y - X β ‖_{2}^{2}}{\partial ‖ β ‖_{1}} ∣_{β = {\hat{β}}^{con}}

$\lambda = -\frac{\partial \frac{1}{2n} \|y - X \beta\|_2^2}{\partial \|\beta\|_1} \mid_{\beta = \hat{\beta}^\textrm{con}}$ (Beachten Sie, dass diese Formel nur bis zu Konstanten korrekt zu sein scheint. Das richtige kann schnell aus den Bedingungen erster Ordnung ermittelt werden, aber ich würde gerne einen Weg finden, es zu motivieren direkt aus diesem Framework.) Dies entspricht (über die Kettenregel) der ersten Antwort in dem Beitrag, den ich als mögliches Duplikat verlinkt habe.

λ

$\lambda$

— user795305
quelle