Bridge Penalty vs. Elastic Net Regularisierung

Einige und Approximationen sind gut untersucht, wie zum Beispiel der LASSO ( ) und der Ridge ( ) und wie diese in der Regression verglichen werden. $L_1$ $L_2$

Ich habe über die Brückenstrafe gelesen, die die verallgemeinerte Strafe ist. Vergleichen Sie das mit dem LASSO mit und dem Ridge mit , was sie zu Sonderfällen macht. $\sum \|\beta_{j}\|^{\gamma}$ $\gamma = 1$ $\gamma = 2$

Wenjiang [ 1 ] verglich die Bridge-Strafe als $\gamma \geq 1$ mit der LASSO, aber ich konnte keinen Vergleich zur Elastic Net-Regularisierung finden, einer Kombination der LASSO- und der Ridge-Strafe, angegeben als $\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}$ .

Dies ist eine interessante Frage, da das elastische Netz und diese spezifische Brücke ähnliche Nebenbedingungen haben. Vergleichen Sie diese Einheitskreise anhand der verschiedenen Metriken ( $p$ ist die Potenz der Minkowski-Distanz ):

$p = 1$ entspricht dem LASSO, $p = 2$ dem Ridge und $p = 1.4$ einer möglichen Bridge. Das elastische Netz wurde mit der gleichen Gewichtung für die Strafen $L_1$ und $L_2$ . Diese Zahlen sind zum Beispiel nützlich, um die Sparsity zu identifizieren (die Bridge eindeutig fehlt, während Elastic Net sie vor LASSO bewahrt).

Wie verhält sich die Bridge mit $1<\gamma <2$ Vergleich zu Elastic Net hinsichtlich der Regularisierung (außer der Sparsity)? Ich habe besonderes Interesse an beaufsichtigtem Lernen, daher ist möglicherweise eine Diskussion über die Auswahl / Gewichtung von Merkmalen angebracht. Auch eine geometrische Argumentation ist willkommen.

Wichtiger ist vielleicht, dass das elastische Netz in diesem Fall immer wünschenswerter ist.

_{[1] Fu, WJ (1998). Bestrafte Regressionen: die Brücke gegen das Lasso. Journal of Computational and Graphical Statistics, 7 (3), 397-416.}

EDIT: Es gibt diese Frage, wie zu entscheiden, welche Strafmaßnahme zu verwenden ist? Es gibt keine allgemeinen Richtlinien oder Faustregeln im Lehrbuch, in denen LASSO, Ridge, Bridge und Elastic Net oberflächlich erwähnt werden. Es gibt jedoch keine Versuche, diese zu vergleichen.

— Firebug
quelle

Nur tangential verwandt, aber wenn die die MAP-Schätzung einer Bayes'schen Regression mit unabhängigen Laplace- für Koeffizienten ist und die für Gauß'sche dieselbe ist, frage ich mich, ob die Brückenstrafe einem Subbotin vor ... stats.stackexchange.com/questions/201038/...

L_{1}

$L_1$

L_{2}

$L_2$

— Sycorax sagt wieder einzusetzen Monica

@RichardHardy Es gibt keine Notwendigkeit, Lasso in allen Hauptstädten zu schreiben, siehe meinen Kommentar hier .

— Amöbe sagt Reinstate Monica

Denken Sie daran, dass die Brückenregression zulässt , was eine nichtkonvexe Regression ergibt. Dies ist insbesondere dann hilfreich, wenn Sie versuchen, Gruppen von Kovariaten auszuwählen, insbesondere aus spärlichen Daten. Oder Sie könnten im Allgemeinen vordefinierte Gruppen von Kovariaten haben, die Sie regulieren würden, damit keine bestimmte Gruppe groß ist, und dann Koeffizienten einzelner Gruppen regulieren, um Sparsity zu erzielen. Dh wenn Sie schreiben , wobei dann könnten Sie .

γ < 1

$\gamma<1$

L^{2}

$L^2$

L^{1}

$L^1$

β = (a_{1}, \dots, a_{k})

$\beta=(a_1,\cdots,a_k)$

a_{i} = (β_{i_{1}}, β_{i_{2},}, \dots, β_{i_{r}})

$a_i=(\beta_{i_1},\beta_{i_2,},\cdots,\beta_{i_r})$

λ_{1} ‖ β ‖^{γ_{i}} + λ_{2} \sum_{i} ‖ a_{i} ‖^{ν_{i}}

$\lambda_1 \|\beta\|^{\gamma_i}+\lambda_2\sum_i \|a_i\|^{\nu_i}$

— Alex R.

@AlexR. Ich sollte eigentlich klarstellen, dass ich mich auf beziehe . Ich wusste nicht, dass auch Bridge heißt.

γ \geq 1

$\gamma \geq 1$

γ < 1

$\gamma < 1$

— Firebug

@amoeba, OK, gut. Normalerweise bearbeite ich nicht, wenn die Verwendung von Großbuchstaben im gesamten Beitrag konsistent ist, aber dieses Mal gab es sowohl "LASSO" als auch "Lasso". Deshalb habe ich mich für "LASSO" entschieden, das erste Formular im Beitrag. Ich denke immer an das Akronym, deshalb habe ich alle Großbuchstaben verwendet; aber wie Sie sagen, kann einfaches "Lasso" besser sein.

— Richard Hardy

Inwiefern sich Brückenregression und elastisches Netz unterscheiden, ist angesichts ihrer ähnlich aussehenden Strafen eine faszinierende Frage. Hier ist ein möglicher Ansatz. Angenommen, wir lösen das Brückenregressionsproblem. Wir können dann fragen, wie sich die elastische Netzlösung unterscheiden würde. Ein Blick auf die Gradienten der beiden Verlustfunktionen kann dazu etwas sagen.

Brückenregression

Angenommen, ist eine Matrix, die Werte der unabhängigen Variablen enthält ( Punkte x Dimensionen), ist ein Vektor, der Werte der abhängigen Variablen enthält, und ist der Gewichtsvektor. $X$ $n$ $d$ $y$ $w$

Die Verlustfunktion bestraft die Norm der Gewichte mit der Größe : $\ell_q$ $\lambda_b$

L_{b} (w) = ‖ y - X w ‖_{2}^{2} + λ_{b} ‖ w ‖_{q}^{q}

$L_b(w) = \| y - Xw\|_2^2 + \lambda_b \|w\|_q^q$

Der Gradient der Verlustfunktion ist:

\nabla_{w} L_{b} (w) = - 2 X^{T} (y - X w) + λ_{b} q | w |^{\circ (q - 1)} sgn (w)

$\nabla_w L_b(w) = -2 X^T (y - Xw) + \lambda_b q |w|^{\circ(q-1)} \text{sgn}(w)$

$v^{\circ c}$ bezeichnet die Hadamard-Potenz (dh die elementweise Potenz), die einen Vektor ergibt, dessen tes Element . ist die Vorzeichenfunktion (angewendet auf jedes Element von ). Der Gradient kann für einige Werte von bei Null undefiniert sein . $i$ $v_i^c$ $\text{sgn}(w)$ $w$ $q$

Elastisches Netz

Die Verlustfunktion ist:

L_{e} (w) = ‖ y - X w ‖_{2}^{2} + λ_{1} ‖ w ‖_{1} + λ_{2} ‖ w ‖_{2}^{2}

$L_e(w) = \|y - Xw\|_2^2 + \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2$

Dies bestraft die Norm der Gewichte mit der Größe und die Norm mit der Größe . Das elastische Netzpapier nennt die Minimierung dieser Verlustfunktion das "naive elastische Netz", weil es die Gewichte doppelt schrumpft. Sie beschreiben ein verbessertes Verfahren, bei dem die Gewichte später neu skaliert werden, um die doppelte Schrumpfung zu kompensieren, aber ich werde nur die naive Version analysieren. Das ist ein Vorbehalt zu beachten. $\ell_1$ $\lambda_1$ $\ell_2$ $\lambda_2$

Der Gradient der Verlustfunktion ist:

\nabla_{w} L_{e} (w) = - 2 X^{T} (y - X w) + λ_{1} sgn (w) + 2 λ_{2} w

$\nabla_w L_e(w) = -2 X^T (y - Xw) + \lambda_1 \text{sgn}(w) + 2 \lambda_2 w$

Bei der Gradient bei Null undefiniert, da der Absolutwert in der Strafe dort nicht differenzierbar ist. $\lambda_1 > 0$ $\ell_1$

Ansatz

Nehmen wir an, wir wählen Gewichte , die das Brückenregressionsproblem lösen. Dies bedeutet, dass der Brückenregressionsgradient an diesem Punkt Null ist: $w^*$

\nabla_{w} L_{b} (w^{*}) = - 2 X^{T} (y - X w^{*}) + λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*}) = \vec{0}

$\nabla_w L_b(w^*) = -2 X^T (y - Xw^*) + \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*) = \vec{0}$

Deshalb:

2 X^{T} (y - X w^{*}) = λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*})

$2 X^T (y - Xw^*) = \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*)$

Wir können dies in den elastischen Nettogradienten einsetzen, um einen Ausdruck für den elastischen Nettogradienten bei . Zum Glück kommt es nicht mehr direkt auf die Daten an: $w^*$

\nabla_{w} L_{e} (w^{*}) = λ_{1} sgn (w^{*}) + 2 λ_{2} w^{*} - λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*})

$\nabla_w L_e(w^*) = \lambda_1 \text{sgn}(w^*) + 2 \lambda_2 w^* -\lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*)$

Wenn wir den Gradienten des elastischen Netzes bei , sehen wir, dass die Brückenregression gegen die Gewichte konvergiert hat. Wie würde das elastische Netz diese Gewichte ändern wollen? $w^*$ $w^*$

Sie gibt uns die lokale Richtung und Größe der gewünschten Änderung an, da der Gradient in Richtung des steilsten Aufstiegs zeigt und die Verlustfunktion abnimmt, wenn wir uns in die dem Gradienten entgegengesetzte Richtung bewegen. Der Gradient zeigt möglicherweise nicht direkt auf die elastische Netzlösung. Da die elastische Nettoverlustfunktion jedoch konvex ist, gibt die lokale Richtung / Größe einige Informationen darüber, wie sich die elastische Nettolösung von der Brückenregressionslösung unterscheidet.

Fall 1: Überprüfung der geistigen Gesundheit

( ). In diesem Fall entspricht die Brückenregression gewöhnlichen kleinsten Quadraten (OLS), da die Strafgröße Null ist. Das elastische Netz ist eine äquivalente Gratregression, da nur die Norm bestraft wird. Die folgenden Diagramme zeigen verschiedene Brückenregressionslösungen und wie sich der elastische Netzgradient für jede dieser Lösungen verhält. $\lambda_b = 0, \lambda_1 = 0, \lambda_2 = 1$ $\ell_2$

Linke Darstellung: Elastischer Netzgradient gegen Brückenregressionsgewicht entlang jeder Dimension

Die x-Achse repräsentiert eine Komponente einer Menge von Gewichten die durch Brückenregression ausgewählt wurden. Die y-Achse stellt die entsprechende Komponente des elastischen Nettogradienten dar, der bei ausgewertet wird . Beachten Sie, dass die Gewichte mehrdimensional sind, aber wir betrachten nur die Gewichte / Verläufe entlang einer einzelnen Dimension. $w^*$ $w^*$

Rechtes Diagramm: Elastische Nettoveränderungen der Brückenregressionsgewichte (2d)

Jeder Punkt repräsentiert eine Menge von 2D-Gewichten die durch Brückenregression ausgewählt wurden. Für jede Wahl von wird ein Vektor aufgetragen, der in die dem elastischen Nettogradienten entgegengesetzte Richtung zeigt, wobei die Größe proportional zu der des Gradienten ist. Das heißt, die eingezeichneten Vektoren zeigen, wie das elastische Netz die Brückenregressionslösung ändern möchte. $w^*$ $w^*$

Diese Diagramme zeigen, dass das elastische Netz (in diesem Fall die Gratregression) im Vergleich zur Brückenregression (in diesem Fall OLS) die Gewichte gegen Null schrumpfen möchte. Der gewünschte Schrumpfbetrag nimmt mit der Größe der Gewichte zu. Wenn die Gewichte Null sind, sind die Lösungen gleich. Die Interpretation ist, dass wir uns in die dem Gradienten entgegengesetzte Richtung bewegen wollen, um die Verlustfunktion zu reduzieren. Angenommen, die Brückenregression hat sich einem positiven Wert für eine der Gewichte angenähert. Der Gradient des elastischen Netzes ist an dieser Stelle positiv, daher möchte das elastische Netz dieses Gewicht verringern. Wenn Sie den Gradientenabstieg verwenden, gehen Sie proportional zum Gradienten vor (technisch können wir den Gradientenabstieg natürlich nicht verwenden, um das elastische Netz zu lösen, da bei Null keine Differenzierbarkeit vorliegt.

Fall 2: Passende Brücke & elastisches Netz

( ). Ich habe die Bridge-Penalty-Parameter so gewählt, dass sie mit dem Beispiel aus der Frage übereinstimmen. Ich habe die Parameter für das elastische Netz gewählt, um die bestmögliche Strafe für das elastische Netz zu erhalten. Hier finden wir die Parameter für die elastische Nettostrafung, die bei einer bestimmten Verteilung der Gewichte die erwartete quadratische Differenz zwischen der Brücke und den elastischen Nettostrafungen minimieren: $q = 1.4, \lambda_b = 1, \lambda_1 = 0.629, \lambda_2 = 0.355$

min_{λ_{1}, λ_{2}} E [(λ_{1} ‖ w ‖_{1} + λ_{2} ‖ w ‖_{2}^{2} - λ_{b} ‖ w ‖_{q}^{q})^{2}]

$\min_{\lambda_1, \lambda_2} \enspace E \left [ ( \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2 - \lambda_b \|w\|_q^q )^2 \right ]$

Hier habe ich Gewichtungen berücksichtigt, bei denen alle Einträge aus der Gleichverteilung auf (dh innerhalb eines am Ursprung zentrierten Hyperwürfels) stammen. Die am besten passenden elastischen Netzparameter waren für 2 bis 1000 Dimensionen ähnlich. Obwohl sie nicht empfindlich auf die Dimensionalität zu reagieren scheinen, hängen die am besten passenden Parameter vom Maßstab der Verteilung ab. $[-2, 2]$

Strafraum

Hier ist eine der Gesamtstrafe, die durch die Brückenregression ( ) und das am besten passende elastische Netz ( ) als Funktion der Gewichte (für den 2d-Fall) auferlegt wurde ): $q=1.4, \lambda_b=100$ $\lambda_1 = 0.629, \lambda_2 = 0.355$

Gradientenverhalten

Wir können folgendes sehen:

Sei das gewählte Brückenregressionsgewicht entlang der Dimension . $w^*_j$ $j$
Wenn , möchte das elastische Netz das Gewicht gegen Null schrumpfen. $|w^*_j|< 0.25$
Wenn , die Brückenregression und die elastischen Netzlösungen sind gleich. Das elastische Netz will sich jedoch entfernen, wenn sich das Gewicht nur geringfügig unterscheidet. $|w^*_j| \approx 0.25$
Wenn , elastisches Netz will das Gewicht erhöhen. $0.25 < |w^*_j| < 1.31$
Wenn sind die Brückenregression und die elastischen Netzlösungen gleich. Das elastische Netz möchte sich von nahegelegenen Gewichten auf diesen Punkt zubewegen. $|w^*_j| \approx 1.31$
Wenn , elastisches Netz will das Gewicht schrumpfen. $|w^*_j| > 1.31$

Die Ergebnisse sind qualitativ ähnlich, wenn wir den Wert von und / oder und das entsprechende beste . Die Punkte, an denen die Brücken- und elastischen Netzlösungen zusammenfallen, ändern sich geringfügig, aber das Verhalten der Gradienten ist ansonsten ähnlich. $q$ $\lambda_b$ $\lambda_1, \lambda_2$

Fall 3: Nicht übereinstimmende Brücke und elastisches Netz

$(q=1.8, \lambda_b=1, \lambda_1=0.765, \lambda_2 = 0.225)$ . In diesem Regime verhält sich die Brückenregression ähnlich wie die Gratregression. Ich habe das am besten passende , aber dann vertauscht, sodass sich das elastische Netz eher wie ein Lasso verhält ( Strafe größer als Strafe). $\lambda_1, \lambda_2$ $\ell_1$ $\ell_2$

Im Verhältnis zur Brückenregression möchte das elastische Netz kleine Gewichte gegen Null schrumpfen und größere Gewichte erhöhen. In jedem Quadranten gibt es einen Satz von Gewichten, bei denen die Brückenregression und die elastischen Netzlösungen zusammenfallen. Das elastische Netz möchte sich jedoch von diesem Punkt entfernen, wenn sich die Gewichte nur geringfügig unterscheiden.

$(q=1.2, \lambda_b=1, \lambda_1=173, \lambda_2 = 0.816)$ . In diesem Regime ist die Brückenstrafe einer Strafe ähnlicher (obwohl die Brückenregression möglicherweise keine spärlichen Lösungen mit , wie im elastischen erwähnt). Ich habe das am besten passende , aber dann vertauscht, sodass sich das elastische Netz eher wie eine verhält ( Strafe größer als Strafe). $\ell_1$ $q > 1$ $\lambda_1, \lambda_2$ $\ell_2$ $\ell_1$

Im Verhältnis zur Brückenregression möchte das elastische Netz kleine Gewichte wachsen lassen und größere Gewichte schrumpfen lassen. In jedem Quadranten gibt es einen Punkt, an dem die Brückenregression und die elastischen Netzlösungen zusammenfallen, und das elastische Netz möchte sich von benachbarten Punkten auf diese Gewichte zubewegen.

— user20160
quelle

(+1) Tolle Antwort, danke für die Mühe! Könnten Sie noch eines ansprechen: "Ist das elastische Netz immer wünschenswerter?". Keine Notwendigkeit, langatmig zu sein;

— Firebug

Brückenregression und elastisches Netz entsprechen der MAP-Schätzung mit verschiedenen Arten von Prioritäten für die Gewichte. Aus dieser Perspektive scheint die bessere Wahl der Prior zu sein, die besser zum Datenerzeugungsprozess passt, und keine der beiden Methoden könnte in allen Fällen besser sein.

— user20160

+6, sehr nette Antwort. In Bezug auf Ihren obigen Kommentar: Was früher ergibt eine Brückenregression? Ich weiß, dass der Gaußsche Prior dem Kamm und der Laplace vor dem Lasso entspricht. Kann man diese Priors irgendwie kombinieren, um etwas zu erhalten, das einem elastischen Netz entspricht?

— Amöbe sagt Reinstate Monica

@amoeba Die Frage war nicht an mich gerichtet, ich weiß, aber wie GeneralAbrial in der Frage sagte, entspricht Bridge wahrscheinlich einem Subbotin vor. Das elastische Netz liegt erwartungsgemäß zwischen dem Gaußschen und dem Laplaceschen Vorschiff. Siehe Li, Q. & Lin, N. (2010). Das Bayes'sche elastische Netz. Bayesian Analysis, 5 (1), 151 & ndash; 170. und Zou, H. & Hastie, T. (2005). Regularisierung und variable Auswahl über das elastische Netz. Zeitschrift der Royal Statistical Society: Reihe B (Statistical Methodology), 67 (2), 301-320. für einen kurzen Vergleich zwischen elastischem Netz und Brückenregression.

— Firebug

@amoeba danke für die Aufmerksamkeit und die Aufmerksamkeit für diesen Beitrag, ebenso für den anderen Beitrag über PCA vs. nichtlineare Dimensionsreduktion. Es ist bewundernswert, dass Sie Ihren Repräsentanten verwenden, um die Fragen / Antworten anderer zu bewerben, und es freut mich, wenn dieser Beitrag für die Menschen zumindest von geringem Wert ist. Andere, danke auch für die freundlichen Worte.

— User20160