Warum verwendet glmnet ein "naives" elastisches Netz aus dem Originalpapier von Zou & Hastie?

Das ursprüngliche elastische Netzpapier Zou & Hastie (2005) Regularisierung und Variablenauswahl über das elastische Netz führten die elastische Nettoverlustfunktion für die lineare Regression ein (hier gehe ich davon aus, dass alle Variablen zentriert und auf die Einheitsvarianz skaliert sind):

L = \frac{1}{n} ‖ y - X β ‖^{2} + λ_{1} ‖ β ‖_{1} + λ_{2} ‖ β ‖_{2}^{2},

$\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,$ nannte es aber "naives elastisches Netz". Sie argumentiertdass es Doppel Schrumpfung (Lasso und ridge) führt, dazu neigt, über schwund und kann durch Neuskalierung der resultierenden Lösung verbessert werdenwie

{\hat{β}}^{*} = (1 + λ_{2}) \hat{β} .

$\hat\beta^* = (1+\lambda_2)\hat\beta.$ Sie gaben einige theoretische Argumente und experimentelle Beweise dafür, dass dies zu einer besseren Leistung führt.

Die nachfolgende glmnetVeröffentlichung Friedman, Hastie, & Tibshirani (2010) Regularisierungspfade für verallgemeinerte lineare Modelle über Koordinatenabstieg verwendeten diese Neuskalierung jedoch nicht und enthielten nur eine kurze Fußnote

Zou und Hastie (2005) nannten diese Strafe das naive elastische Netz und bevorzugten eine neu skalierte Version, die sie elastisches Netz nannten. Wir lassen diese Unterscheidung hier fallen.

Dort (oder in einem der Lehrbücher von Hastie et al.) Wird keine weitere Erklärung gegeben. Ich finde es etwas rätselhaft. Haben die Autoren die Neuskalierung weggelassen, weil sie sie für zu ad hoc hielten ? weil es in einigen weiteren experimenten schlechter lief? weil es nicht klar war, wie man es auf den GLM-Fall verallgemeinern soll? Ich habe keine Ahnung. Aber auf jeden Fall wurde das glmnetPaket seitdem sehr populär und so habe ich den Eindruck, dass heutzutage niemand die Neuskalierung von Zou & Hastie verwendet, und die meisten Leute sind sich dieser Möglichkeit wahrscheinlich nicht einmal bewusst.

Frage: War diese Neuskalierung schließlich eine gute oder eine schlechte Idee?

Mit glmnetParametrisierung, Zou & Hastie Neuskalierung sollte

{\hat{β}}^{*} = (1 + λ (1 - α)) \hat{β} .

$\hat\beta^* = \big(1+\lambda(1-\alpha)\big)\hat\beta.$

— Amöbe sagt Reinstate Monica
quelle

Da im Klebezettel das Ziel darin besteht, den gesamten Regularisierungspfad anzupassen, könnte die Idee sein, dass die Neuskalierung nur eine monotone Transformation des Pfades wäre?

— Matthew Drury

@MatthewDrury Das stimmt aber trotzdem, wenn Friedman et al. glaubte, dass eine erneute Skalierung eine gute Idee ist, sie würde es nicht aus dem Papier und insbesondere nicht aus dem glmnetCode herauslassen. Es ist dort nicht einmal als optionale Funktion verfügbar (der frühere Code, der dem Artikel von 2005 beiliegt, unterstützt natürlich die Neuskalierung).

— Amöbe sagt Reinstate Monica

Leider ist der öffentliche glmnet-Code völlig unlesbar ...

— Matthew Drury

Ich schickte diese Frage per E-Mail an Zou und Hastie und erhielt die folgende Antwort von Hastie (ich hoffe, es würde ihm nichts ausmachen, wenn ich sie hier zitiere):

Ich denke, bei Zou et al. Waren wir besorgt über die zusätzliche Verzerrung, aber natürlich erhöht eine Neuskalierung die Varianz. Es verschiebt sich also nur um eins entlang der Kompromisskurve zwischen Bias und Varianz. Wir werden in Kürze eine Version des entspannten Lassos aufnehmen, die eine bessere Form der Neuskalierung darstellt.

Ich interpretiere diese Worte als eine Bestätigung von irgendeiner Form von der Vanille elastischer Netzlösung „neu zu skalieren“, aber Hastie scheint nicht mehr stehen zu dem besonderen Ansatz nach vorn 2005 in Zou & Hastie setzen.

Im Folgenden werde ich einige Skalierungsoptionen kurz überprüfen und vergleichen.

glmnet

L = \frac{1}{2 n} ‖ y - β_{0} - X β ‖^{2} + λ (α ‖ β ‖_{1} + (1 - α) ‖ β ‖_{2}^{2} / 2),

$\mathcal L = \frac{1}{2n}\big\lVert y - \beta_0-X\beta\big\rVert^2 + \lambda\big(\alpha\lVert \beta\rVert_1 + (1-\alpha) \lVert \beta\rVert^2_2/2\big),$

\hat{β}

$\hat\beta$

${\hat{β}}_{neu skaliert} = (1 + λ (1 - α)) \hat{β} .$ $\hat\beta_\text{rescaled} = \big(1+\lambda(1-\alpha)\big)\hat\beta.$ $\alpha=0$ $\alpha=1$
${\hat{β}}_{Elastic-OLS-Hybrid} = OLS (X_{ich} ∣ {\hat{β}}_{ich} \neq 0)$ $\hat\beta_\text{elastic-OLS-hybrid}= \text{OLS}(X_i\mid\hat\beta_i\ne 0)$ $n$ $n$
Das in der oben genannten E-Mail von Hastie erwähnte entspannte Lasso ist ein Vorschlag, ein weiteres Lasso für die vom ersten Lasso ausgewählte Teilmenge von Prädiktoren auszuführen. Die Idee ist, zwei verschiedene Strafen zu verwenden und beide durch Kreuzvalidierung auszuwählen . Man könnte dieselbe Idee auf das elastische Netz anwenden, aber dies scheint vier verschiedene Regularisierungsparameter zu erfordern, und deren Einstellung ist ein Albtraum.

Ich schlage einen einfacheren vor $\hat\beta$ $\alpha=0$ $\lambda$
${\hat{β}}_{entspanntes elastisches Netz} = Grat (X_{ich} ∣ {\hat{β}}_{ich} \neq 0) .$ $\hat\beta_\text{relaxed-elastic-net}= \text{Ridge}(X_i\mid\hat\beta_i\ne 0).$

$n\ll p$ $n=44$ $p=3000$ $y$ $X$

R_{Prüfung}^{2} = 1 - \frac{‖ y_{Prüfung} - {\hat{β}}_{0} - X_{Prüfung} \hat{β} ‖^{2}}{‖ y_{Prüfung} - {\hat{β}}_{0} ‖^{2}} .

$R^2_\text{test} = 1-\frac{\lVert y_\text{test} - \hat\beta_0 - X_\text{test}\hat\beta\rVert^2}{\lVert y_\text{test} - \hat\beta_0\rVert^2}.$

\hat{β}

$\hat\beta$

Zumindest in diesen Daten übertreffen alle drei Ansätze den Schätzer für das elastische Vanillenetz, und "entspanntes elastisches Netz" erzielt die beste Leistung.

— Amöbe sagt Reinstate Monica
quelle