Lösung des Lasso-Problems in geschlossener Form, wenn die Datenmatrix diagonal ist

$\newcommand{\diag}{\operatorname{diag}}$ Wir haben das Problem: mit der Annahme, dass:

min_{w \in R^{d}} (\frac{1}{n} \sum_{i = 1}^{n} {(⟨ w, x_{i} ⟩ - y_{i})}^{2} + 2 λ | | w | |_{1}),

$\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),$

\sum_{i = 1}^{n} x_{i} x_{i}^{T} = diag (σ_{1}^{2}, . . ., σ_{d}^{2}) .

$\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2).$

Gibt es in diesem Fall eine geschlossene Lösung?

Ich habe folgendes:

(X^{T} X)^{- 1} = diag (σ_{1}^{- 2}, . . ., σ_{d}^{- 2}),

$(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),$ und daher denke ich, dass die Antwort lautet :

w^{j} = y^{j} max {0, 1 - λ \frac{n}{| y^{j} |}},

$w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},$ für

y^{j} = \sum_{i = 1}^{n} \frac{y_{i} x_{i}^{j}}{σ_{i}^{2}}

$y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}$ , aber ich bin nicht sicher.

— Arthur D.
quelle

Ich werde @ cardinals Herleitung der Lasso-Lösung in geschlossener Form durchgehen, wenn , hier gefunden , mit geringfügigen Änderungen. $X^T X = I$

Ich gehe davon aus, dass für alle . Dies ist gerechtfertigt, weil, wenn wir ein dies uns sagt, dass das $\sigma^2_i > 0$ $i$ $\sigma^2_i = 0$ $i$ te Spalte von alle 0 ist, und ich denke, es ist vernünftig, einen solchen Fall auszuschließen. Ich lasse . Beachten Sie, dass dies auch bedeutet, dass vollen Rang hat und die OLS-Lösung eindeutig definiert ist. $X$ $X^T X = D$ $X$ $\hat \beta$

Ich werde auch Ihre Notation so ändern, dass sie der Antwort, auf die ich verweise, besser entspricht. Zu diesem Zweck werde ich

{\hat{β}}_{λ} = {argmin}_{β \in R^{p}} \frac{1}{2} | | Y - X β | |_{2}^{2} + λ | | β | |_{1} .

$\hat \beta_\lambda = \text{argmin}_{\beta \in \mathbb R^p } \frac 12 \vert \vert Y - X\beta\vert \vert^2_2 + \lambda \vert \vert \beta \vert \vert_1.$

Dies ist identisch mit Ihrem Problem, aber ich kann hier weitere Details hinzufügen, wenn Sie möchten.

Nach der Herleitung von @ cardinal müssen wir lösen.

{\hat{β}}_{λ} = argmin \frac{1}{2} (Y^{T} Y - 2 Y^{T} X β + β^{T} X^{T} X β) + λ | | β | |_{1}

$\hat \beta_\lambda = \text{argmin } \frac 12 (Y^T Y - 2 Y^T X \beta + \beta^T X^T X \beta) + \lambda \vert \vert \beta \vert \vert_1$

= argmin - Y^{T} X β + \frac{1}{2} β^{T} D β + λ | | β | |_{1} .

$= \text{argmin } -Y^T X \beta + \frac 12 \beta^T D \beta + \lambda \vert \vert \beta \vert \vert_1.$

Festzustellen, dass die OLS-Lösung ist $\hat \beta = (X^T X)^{-1} X^T Y = D^{-1}X^T Y$ , haben wir

{\hat{β}}_{λ} = argmin - {\hat{β}}^{T} D β + \frac{1}{2} β^{T} D β + λ | | β | |_{1}

$\hat \beta_\lambda = \text{argmin } -\hat \beta^T D \beta + \frac 12 \beta^T D \beta + \lambda \vert \vert \beta \vert \vert_1$

= argmin \sum_{j = 1}^{p} - {\hat{β}}_{j} β_{j} σ_{j}^{2} + \frac{σ_{j}^{2}}{2} β_{j}^{2} + λ | β_{j} | .

$= \text{argmin } \sum_{j=1}^p -\hat \beta_j \beta_j \sigma^2_j + \frac{\sigma^2_j}2 \beta_j^2 + \lambda | \beta_j|.$

Wir optimieren jedes separat, damit wir jeden Term dieser Summe separat lösen können. Das heißt, wir müssen minimieren $\beta_j$ $\mathcal L_j$ mit

L_{j} = - {\hat{β}}_{j} β_{j} σ_{j}^{2} + \frac{σ_{j}^{2}}{2} β_{j}^{2} + λ | β_{j} | .

$\mathcal L_j = -\hat \beta_j \beta_j \sigma^2_j + \frac{\sigma^2_j}2 \beta_j^2 + \lambda | \beta_j|.$

Nach einem völlig analogen Argument zur verknüpften Antwort finden wir das

({\hat{β}}_{λ})_{j} = s g n ({\hat{β}}_{j}) {(| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}})}^{+} .

$(\hat \beta_\lambda)_j = \mathrm{sgn}(\hat \beta_j) \left(|\hat \beta_j| - \frac{\lambda}{\sigma^2_j}\right)^+.$

Außerdem $\hat \beta = D^{-1} X^T Y \implies \hat \beta_j = \frac{X_j^T Y}{\sigma_j^2}$ sodass wir das

{(| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}})}^{+} = \frac{1}{σ_{j}^{2}} {(| X_{j}^{T} Y | - λ)}^{+}

$\left(|\hat \beta_j| - \frac{\lambda}{\sigma^2_j}\right)^+ = \frac 1 {\sigma^2_j} \left(|X_j^T Y| - \lambda\right)^+$

es stellt sich also heraus, dass ein Prädiktor genau dann auf Null gesetzt wird, wenn die Entwurfsmatrix orthonormal und nicht nur orthogonal wäre. Wir können also sehen, dass in diesem Fall mit die Variablenauswahl nicht anders ist als mit $X_j$ $X^T X = D \neq I$ $X^T X = I$ , aber die tatsächlichen Koeffizienten werden gemäß den Prädiktorvarianzen skaliert. $\hat \beta_\lambda$

Abschließend möchte ich diese Lösung in eine Lösung umwandeln, die Ihrer ähnelt. Dies bedeutet, dass wir mit etwas multiplizieren müssen, um . If $\hat \beta$ $\hat \beta_\lambda$ $(\hat \beta_\lambda)_j \neq 0$ dann haben wir das

({\hat{β}}_{λ})_{j} = sgn ({\hat{β}}_{j}) (| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}}) = {\hat{β}}_{j} - sgn ({\hat{β}}_{j}) \frac{λ}{σ_{j}^{2}}

$(\hat \beta_\lambda)_j = \text{sgn}(\hat \beta_j) \left( \vert \hat \beta_j \vert - \frac{\lambda}{\sigma^2_j} \right) = \hat \beta_j - \text{sgn}(\hat \beta_j) \frac{\lambda}{\sigma^2_j}$

= {\hat{β}}_{j} (1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |})

$= \hat \beta_j \left( 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \right)$

schon seit $\frac{a}{\vert a \vert} = \text{sgn}(a)$ .

Beachten Sie, dass genau wann $(\hat \beta_\lambda)_j = 0$

| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}} \leq 0 ⟺ | {\hat{β}}_{j} | \leq \frac{λ}{σ_{j}^{2}} ⟺ 1 \leq \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |} ⟺ 1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |} \leq 0,

$\vert \hat \beta_j \vert - \frac{\lambda}{\sigma^2_j} \leq 0 \iff \vert \hat \beta_j \vert \leq \frac{\lambda}{\sigma^2_j} \iff 1 \leq \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \iff 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \leq 0,$

wir sehen, dass wir alternativ als $\hat \beta_\lambda$

({\hat{β}}_{λ})_{j} = {\hat{β}}_{j} {(1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |})}^{+} .

$(\hat \beta_\lambda)_j = \hat \beta_j \left( 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \right)^+.$

Das kommt dem sehr nahe, was du hattest, ist aber nicht genau dasselbe.

Ich mag es immer, solche Ableitungen mit bekannten Bibliotheken abzugleichen, also hier ein Beispiel in R:

## generating `x`
set.seed(1)
n = 1000
p = 5
sigma2s = 1:p
x = svd(matrix(rnorm(n * p), n, p))$u %*% diag(sqrt(sigma2s))

## check this
# t(x) %*% x

## generating `y`
betas = 1:p
y = x %*% betas + rnorm(nrow(x), 0, .5)

lambda = 2

## using a well-known library to fit lasso
library(penalized)
penalized(y, x, lambda1 = lambda)@penalized


## using closed form solution
betahat = lm(y ~ x - 1)$coef
ifelse(betahat > 0, 1, -1) * sapply(abs(betahat) - lambda / sigma2s, function(v) max(c(0, v)))

— jld
quelle