Die Lasso-Strafe galt nur für eine Untergruppe von Regressoren

Diese Frage wurde bereits gestellt, aber es gab keine Antworten, daher dachte ich, ich könnte sie noch einmal stellen.

Ich bin daran interessiert, eine Lasso-Strafe auf eine Untergruppe der Regressoren anzuwenden, dh mit objektiver Funktion

$E = ||\mathbf{y} - \mathbf{X}_1 \boldsymbol{\beta}_1 - \mathbf{X}_2 \boldsymbol{\beta}_2||^2 + \lambda ||\boldsymbol{\beta}_1||_1$

Dabei wird das Lasso nur auf angewendet, $\boldsymbol{\beta}_1$ aber $\boldsymbol{\beta}_2$ ist an der Rekonstruktion beteiligt.

Gibt es eine Theorie dahinter? Zweitens gibt es überhaupt eine Möglichkeit, dies in sklearn zu tun?

scikit-learn lasso

— user180303
quelle

Antworten:

Sei ein orthogonaler Projektor auf den Spaltenraum von . Wir haben das where $H_2$ $X_2$

\begin{aligned} min_{β_{1}, β_{2}} {‖ y - X_{1} β_{1} - X_{2} β_{2} ‖_{2}^{2} + λ ‖ β_{1} ‖_{1}} \\ = & min_{β_{1}, β_{2}} {‖ H_{2} (y - X_{1} β_{1}) - X_{2} β_{2} ‖_{2}^{2} + ‖ (I - H_{2}) (y - X_{1} β_{1}) ‖_{2}^{2} + λ ‖ β_{1} ‖_{1}} \\ = & min_{β_{1} | β_{2}} min_{β_{2}} {‖ H_{2} (y - X_{1} β_{1}) - X_{2} β_{2} ‖_{2}^{2} + ‖ (I - H_{2}) (y - X_{1} β_{1}) ‖_{2}^{2} + λ ‖ β_{1} ‖_{1}}, \end{aligned}

$\begin{align*} & \min_{\beta_1, \beta_2} \left\{ \|y - X_1\beta_1 - X_2\beta_2\|_2^2 + \lambda \|\beta_1\|_1 \right\} \\ = & \, \min_{\beta_1, \beta_2} \left\{ \|H_2\left(y - X_1\beta_1 \right) - X_2 \beta_2\|_2^2 + \|\left(I-H_2\right)\left(y - X_1\beta_1 \right) \|_2^2 + \lambda \|\beta_1 \|_1 \right\} \\ = & \, \min_{\beta_1 | \beta_2} \min_{\beta_2} \left\{ \|H_2\left(y - X_1\beta_1 \right) - X_2 \beta_2\|_2^2 + \|\left(I-H_2\right)\left(y - X_1\beta_1 \right) \|_2^2 + \lambda \|\beta_1 \|_1 \right\}, \end{align*}$

\begin{aligned} {\hat{β}}_{2} & = \arg min_{β_{2}} {‖ H_{2} (y - X_{1} β_{1}) - X_{2} β_{2} ‖_{2}^{2} + ‖ (I - H_{2}) (y - X_{1} β_{1}) ‖_{2}^{2} + λ ‖ β_{1} ‖_{1}} \\ = \arg min_{β_{2}} {‖ H_{2} (y - X_{1} β_{1}) - X_{2} β_{2} ‖_{2}^{2}} \end{aligned}

$\begin{align*} \hat\beta_2 & = \arg\min_{\beta_2} \left\{ \|H_2\left(y - X_1\beta_1 \right) - X_2 \beta_2\|_2^2 + \|\left(I-H_2\right)\left(y - X_1\beta_1 \right) \|_2^2 + \lambda \|\beta_1 \|_1 \right\} \\ & = \arg\min_{\beta_2} \left\{ \|H_2\left(y - X_1\beta_1 \right) - X_2 \beta_2\|_2^2 \right\} \end{align*}$ erfüllt für alle seit für alle . Wenn man in diesem Satz den Fall betrachtet, dass vollen Rang hat, haben wir ferner da in diesem Fall.

X_{2} {\hat{β}}_{2} = H_{2} (y - X_{1} β_{1})

$X_2 \hat\beta_2 = H_2 (y - X_1 \beta_1)$

β_{1}

$\beta_1$

H_{2} (y - X_{1} β_{1}) \in c o l (X_{2})

$H_2 (y - X_1 \beta_1) \in \mathrm{col}(X_2)$

β_{1}

$\beta_1$

X_{2}

$X_2$

{\hat{β}}_{2} = (X_{2}^{T} X_{2})^{- 1} X_{2}^{T} (y - X_{1} β_{1}),

$\hat\beta_2 = (X_2^T X_2)^{-1} X_2^T (y - X_1 \beta_1),$

H_{2} = X_{2} (X_{2}^{T} X_{2})^{- 1} X_{2}

$H_2 = X_2 (X_2^T X_2)^{-1} X_2$

Wenn wir dies in das erste Optimierungsproblem einfügen, sehen wir, dass die mit den üblichen Lasso-Rechenwerkzeugen ausgewertet werden kann. Wie Whuber in seinem Kommentar vorschlägt, ist dieses Ergebnis intuitiv, da die uneingeschränkten Koeffizienten die Spanne von abdecken können , so dass bei der Bewertung von nur der Teil des Raums orthogonal zur Spanne von von Bedeutung ist .

\begin{aligned} {\hat{β}}_{1} & = \arg min_{β_{1}} {0 + ‖ (I - H_{2}) (y - X_{1} β_{1}) ‖_{2}^{2} + λ ‖ β_{1} ‖_{1}} \\ (*) & = \arg min_{β_{1}} {‖ (I - H_{2}) y - (I - H_{2}) X_{1} β_{1} ‖_{2}^{2} + λ ‖ β_{1} ‖_{1}}, \end{aligned}

$\begin{align*} \hat\beta_1 & = \arg\min_{\beta_1} \left\{ 0 + \|\left(I-H_2\right)\left(y - X_1\beta_1 \right) \|_2^2 + \lambda \|\beta_1 \|_1 \right\} \\ & =\arg\min_{\beta_1} \left\{ \|\left(I-H_2\right)y - \left(I-H_2\right)X_1\beta_1 \|_2^2 + \lambda \|\beta_1 \|_1 \right\}, \tag{*} \end{align*}$

β_{2}

$\beta_2$

X_{2}

$X_2$

X_{2}

$X_2$

{\hat{β}}_{1}

$\hat\beta_1$

Obwohl die Notation etwas allgemeiner ist, ist fast jeder, der jemals Lasso verwendet hat, mit diesem Ergebnis vertraut. Um dies zu sehen, nehmen wir an, dass die (Länge ) Vektoren von Einsen sind, die den Achsenabschnitt darstellen. Dann ist die Projektionsmatrix und für jeden Vektor die orthogonale Projektion erniedrigt nur die Vektor. In Anbetracht von Gleichung ist dies genau das, was Menschen tun, wenn sie die Lassokoeffizienten berechnen! Sie erniedrigen die Daten, so dass der Abschnitt nicht berücksichtigt werden muss. $X_2 = \mathbf{1}$ $n$ $H_2 = \mathbf{1} \left( \mathbf{1}^T \mathbf{1} \right)^{-1} \mathbf{1}^T = \frac{1}{n} \mathbf{1} \mathbf{1}^T$ $v$ $\left( I - H_2 \right) v = v - \bar{v} \mathbf{1}$ $(*)$

— user795305
quelle

Ich weiß nicht, dass Sie hinter einem solchen Ansatz viel "Theorie" brauchen. Bestrafte Regressionsansätze (LASSO, Ridge oder ihre hybride elastische Netzregression) sind Werkzeuge, um Bias-Varianz-Kompromisse einzugehen, um die Generalisierbarkeit und Leistung des Modells zu verbessern. Sie können sich sicher dafür entscheiden, einige Variablen nicht zu bestrafen, wie Sie es für vorschlagen , während andere bestraft werden. In diesem Artikel wurde beispielsweise die Wirksamkeit eines Impfstoffs untersucht, indem der Impfstatus nicht bestraft wurde, während andere Kovariaten mit einer Ridge-Regression-L2-Strafe einbezogen wurden. Durch diesen Ansatz wurde eine Überanpassung an Kovariaten vermieden und gleichzeitig eine direkte Bewertung des wichtigsten interessierenden Prädiktors ermöglicht. $\beta_2$

Fragen zu Implementierungen in bestimmten Programmierumgebungen sind auf dieser Site nicht zum Thema. Ein allgemeiner Weg, um dieses Problem anzugehen, wie im glmnetPaket in R, besteht darin, einen prädiktorspezifischen Straffaktor aufzunehmen, der die Gesamtauswahl von multipliziert, bevor die Zielfunktion bewertet wird. Prädiktoren haben Standardstraffaktoren von 1, aber ein Prädiktor mit einem bestimmten Straffaktor von 0 würde überhaupt nicht bestraft und einer mit einem unendlichen Straffaktor würde immer ausgeschlossen. Zwischenwerte von Straffaktoren, die sich zwischen Prädiktoren unterscheiden, können jede gewünschte unterschiedliche Bestrafung unter den Prädiktoren liefern. Ich vermute, dass dieser Ansatz irgendwie in die von bereitgestellten Tools integriert werden kann . $\lambda$ sklearn

— EdM
quelle

+1 Da normalerweise nicht angegeben wird, sondern auf andere Weise gefunden wird, sieht es so aus, als könnte man die Auswirkung von auf entfernen (indem man gegen ). Passen Sie mit als Antwort und dem angepassten als an die Regressoren, und führen Sie dann das Lasso für die Residuen aus, wobei Sie nur als Regressoren verwenden. Der Lösungsraum für ist derselbe, aber der Parameter kann mit einer (inkonsequenten) Konstante multipliziert werden. Die Problemumgehung für die Ridge-Regression ist noch einfacher .

λ

$\lambda$

X_{1}

$X_1$

X_{2}

$X_2$

X_{2}

$X_2$

X_{1}

$X_1$

β_{2}

$\beta_2$

Y

$Y$

X_{2}

$X_2$

X_{1}

$X_1$

β_{1}

$\beta_1$

λ

$\lambda$

— whuber