Wie funktioniert die Ridge- oder Lasso-Regression wirklich?

Sehr grundlegende Frage hier, aber ich möchte verstehen (nicht mathematisch), wie die Tatsache, eine "Strafe" (Summe der quadratischen Koeffizienten mal Skalar) zur verbleibenden Quadratsumme hinzuzufügen, große Koeffizienten reduzieren kann? Vielen Dank !

regression least-squares regularization

— TmSmth
quelle

Eine grafische / visuelle Intuition finden Sie unter: stats.stackexchange.com/questions/350046/… , stats.stackexchange.com/questions/351631/…

— Xavier Bourret Sicotte

Weil Ihre "Strafe" -Darstellung des Minimierungsproblems nur die weitreichende Form eines Problems der Einschränkungsoptimierung ist:

Nehmen Sie zentrierte Variablen an. In beiden Fällen, Lasso und Ridge, ist Ihre uneingeschränkte Zielfunktion dann die übliche Summe der quadratischen Residuen. dh gegebene Regressoren, die Sie minimieren: über alles . $p$

R. S. S. (β) = \sum_{ich = 1}^{n} (y_{ich} - - (x_{ich, 1} β_{1} + \dots + x_{ich, p} β_{p}))^{2} .

$RSS(\boldsymbol{\beta}) = \sum_{i=1}^n (y_i-(x_{i,1}\beta_1 +\dots +x_{i,p}\beta_p))^2.$

β = (β_{1}, \dots, β_{p})

$\boldsymbol{\beta} =(\beta_1,\dots, \beta_p)$

Im Fall einer Gratregression minimieren Sie so, dass für einen Wert von . Für kleine Werte von es unmöglich, dieselbe Lösung wie im Standard-Szenario der kleinsten Quadrate abzuleiten. In diesem Fall minimieren Sie nur Denken Sie an dann an Die einzig mögliche Lösung kann . $RSS(\boldsymbol{\beta})$

\sum_{ich = 1}^{p} β_{p}^{2} \leq t_{r ich d G e},

$\sum_{i=1}^p\beta_p^2 \leq t_{ridge},$

t_{r i d g e} \geq 0

$t_{ridge}\geq 0$

t_{r i d g e}

$t_{ridge}$

R S S (β)

$RSS(\boldsymbol{\beta})$

t_{r i d g e} = 0

$t_{ridge}=0$

β_{1} \equiv \dots \equiv β_{p} = 0

$\beta_1\equiv \dots \equiv \beta_p = 0$

Andererseits minimieren Sie im Fall des Lassos unter der Bedingung für einen Wert von . $RSS(\boldsymbol{\beta})$

\sum_{ich = 1}^{p} | β_{p} | \leq t_{l ein s s Ö},

$\sum_{i=1}^p|\beta_p| \leq t_{lasso},$

t_{l a s s o} \geq 0

$t_{lasso}\geq 0$

Beide eingeschränkten Optimierungsprobleme können in Bezug auf ein nicht eingeschränktes Optimierungsproblem äquivalent dargestellt werden, dh für das Lasso: Sie können äquivalent minimieren

\sum_{ich = 1}^{n} (y_{ich} - - (x_{ich, 1} β_{1} + \dots + x_{ich, p} β_{p}))^{2} + λ_{l ein s s Ö} \sum_{ich = 1}^{p} | β_{p} | .

$\sum_{i=1}^n (y_i-(x_{i,1}\beta_1 +\dots +x_{i,p}\beta_p))^2 + \lambda_{lasso}\sum_{i=1}^p|\beta_p|.$

— BloXX
quelle

Vielen Dank, ich muss tief in den Teil "beschränkt auf nicht eingeschränkt", aber ich kam auf die Idee

— TmSmth