Warum verwendet glmnet den Koordinatenabstieg für die Ridge-Regression?

7

Wenn ich es richtig verstehe, verwendet glmnet den zyklischen Koordinatenabstieg nicht nur für Lasso- und Gummibänder, sondern auch für die Ridge-Regression.

Warum wird dieser Algorithmus verwendet, der manchmal leicht ungenaue Ergebnisse liefert, obwohl tatsächlich eine einfache Lösung in geschlossener Form verfügbar ist?

Vielen Dank im Voraus!

— Benkyozamurai
quelle

Stellen Sie sich vor, Sie haben

λ_{1} \approx λ_{2}

$\lambda_1 \approx \lambda_2$ und du suchst

{\hat{β}}_{λ_{1}}^{r i d g e}

$\hat\beta^{ridge}_{\lambda_1}$ und

{\hat{β}}_{λ_{2}}^{r i d g e}

$\hat\beta^{ridge}_{\lambda_2}$ Die durch den Abstimmungsparameter indizierten Ridge-Regressionsschätzungen. Um das geschlossene Formular zu verwenden, um zu finden

{\hat{β}}_{λ_{2}}

$\hat\beta_{\lambda_2}$ nach dem Rechnen

{\hat{β}}_{λ_{1}}

$\hat\beta_{\lambda_1}$ Sie müssten ein ganz anderes lineares System lösen, für das Sie früher gelöst haben

{\hat{β}}_{λ_{1}}

$\hat\beta_{\lambda_1}$ . Wenn Sie jedoch den Koordinatenabstieg bei Warmstarts verwenden möchten, finden Sie ihn sehr schnell und effizient

{\hat{β}}_{λ_{2}}

$\hat\beta_{\lambda_2}$ .

— user795305

iterative Methoden haben einige Vorteile bei sehr großen und spärlichen Systemen. Selbst in einigen Fällen, in denen eine Lösung in geschlossener Form verfügbar ist, verwenden wir immer noch iterative Methoden. Zum Beispiel CG zum Lösen eines linearen Systems

— Haitao Du

7

Ich denke, das liegt an der Geschwindigkeit. Der zyklische Koordinatenabstieg findet nicht die genaue Lösung in endlicher Zeit, aber er ist schneller, nicht nur für ein Gitter von $\lambda$ ist aber auch für eine Single $\lambda$ .

Betrachten Sie die Aufgabe, die Gratregression für eine einzelne zu lösen $\lambda$ mit einer Datenmatrix der Größe $n \times p$ . Ich glaube, die optimale Laufzeit für eine exakte Gratregression ist $O(n^2p)$ wenn $n < p$ und $O(np^2)$ wenn $n > p$ . Eine Referenz finden Sie in Murphy, Maschinelles Lernen , Abschnitt 7.5.2.

Mit dem Algorithmus für den zyklischen Koordinatenabstieg "ein vollständiger Zyklus durch alle $p$ Variablen Kosten $O(pN)$ Operationen "(S. 6, Friedman et al. 2010, https://www.jstatsoft.org/article/view/v033i01 ). Man kann dann eine Anzahl von Zyklen angeben $c$ mit $c \ll min(n, p)$ um eine schnellere Big-Oh-Laufzeit für eine Single zu bekommen $\lambda$ . Zum Lösen über viele $\lambda$ Die glmnetMethode sollte sich durch Warmstarts weiter verbessern.

— Brian Z.
quelle

1

Es gibt andere Löser für Ridge, und der Zweck des glmnet-Lösers besteht genau darin, CCD aus Gründen der Traktabilität und Geschwindigkeit zu verwenden. Sie verwenden für alle Elasticnet-Lösungen den gleichen Code . Elasticnet enthält Grat und LASSO nach Einstellung $\lambda_1$ oder $\lambda_2$ zu $0$ .

— Tobias Abenius
quelle