Ridge-Regressionsformulierung als eingeschränkt oder bestraft: Wie sind sie äquivalent?

Ich scheine eine Behauptung über lineare Regressionsmethoden, die ich an verschiedenen Orten gesehen habe, falsch zu verstehen. Die Parameter des Problems sind:

Eingang:

$N$ Datenproben von Größen, die jeweils aus einer "Antwort" -Größe und "Prädiktor" -Größen $p+1$ $y_i$ $p$ $x_{ij}$

Das gewünschte Ergebnis ist eine "gute lineare Anpassung", die die Antwort basierend auf den Prädiktoren vorhersagt, wobei eine gute Anpassung (unter anderen Kriterien) kleine Unterschiede zwischen der Vorhersage und der beobachteten Antwort aufweist.

Ausgabe: Koeffizienten wobei eine "gute Anpassung" für die Vorhersage der Antwortgröße aus den Prädiktorgrößen ist. $p+1$ $\beta_j$ $\beta_0 + \sum_{j=1}^p x_{ij} * \beta_j$

Ich bin verwirrt über den "Ridge Regression" -Ansatz für dieses Problem. In "Die Elemente des statistischen Lernens" von Hastie, Tibshirani und Friedman wird die Gratregression auf zwei Arten formuliert.

Zunächst als eingeschränktes Optimierungsproblem :

{a r g m i n}_{β} \sum_{i = 1}^{N} (y_{i} - (β_{0} + \sum_{j = 1}^{p} (x_{i j} * β_{j})))^{2}

${argmin}_\beta \sum_{i=1}^N { ( y_i - (\beta_0 + \sum_{j=1}^p (x_{ij} * \beta_j)) )^2 }$ unterliegt der Einschränkung für einen positiven Parameter t.

\sum_{j = 1}^{p} β_{i}^{2} \leq t

$\sum_{j=1}^p \beta_i^2 \leq t$

Zweitens ist das bestrafte Optimierungsproblem : für einen positiven Parameter .

{a r g m i n}_{β} (λ \sum_{j = 1}^{p} β_{j}^{2}) + \sum_{i = 1}^{N} (y_{i} - (β_{0} + \sum_{j = 1}^{p} (x_{i j} * β_{j})))^{2}

${argmin}_\beta ( \lambda \sum_{j=1}^p { \beta_j^2 } ) + \sum_{i=1}^N { ( y_i - (\beta_0 + \sum_{j=1}^p (x_{ij} * \beta_j)) )^2 }$

λ

$\lambda$

Der Text sagt, dass diese Formulierungen äquivalent sind und dass es eine "Eins-zu-Eins-Entsprechung zwischen den Parametern und " gibt. Ich habe diese Behauptung (und ähnliche) zusätzlich zu diesem Buch an mehreren Stellen gesehen. Ich glaube, mir fehlt etwas, weil ich nicht sehe, wie die Formulierungen gleichwertig sind, wie ich es verstehe. $\lambda$ $t$

Betrachten Sie den Fall, in dem und mit , und , . Wenn Sie den Parameter wählen, wird die eingeschränkte Formulierung zu: $N=2$ $p=1$ $y_1=0$ $x_{1,1}=0$ $y_2=1$ $x_{1,2}=1$ $t=2$

{a r g m i n}_{β_{0}, β_{1}} (β_{0}^{2} + (1 - (β_{0} + β_{1}))^{2})

${argmin}_{\beta_0,\beta_1} ( \beta_0^2 + (1 - (\beta_0 + \beta_1))^2 )$

erweitert auf

{a r g m i n}_{β_{0}, β_{1}} (2 β_{0}^{2} + 2 β_{0} β_{1} - 2 β_{0} + β_{1}^{2} - 2 β_{1} + 1)

${argmin}_{\beta_0,\beta_1} ( 2 \beta_{0}^{2} + 2 \beta_{0} \beta_{1} - 2 \beta_{0} + \beta_{1}^{2} - 2 \beta_{1} + 1 )$

Um dies zu lösen, finden Sie die Lösung, bei der die partiellen Ableitungen in Bezug auf und Null sind: mit Lösung und . Beachten Sie, dass nach Bedarf. $\beta_0$ $\beta_1$

4 β_{0} + 2 β_{1} - 2 = 0

$4 \beta_{0} + 2 \beta_{1} - 2 = 0$

2 β_{0} + 2 β_{1} - 2 = 0

$2 \beta_{0} + 2 \beta_{1} - 2 = 0$

β_{0} = 0

$\beta_0 = 0$

β_{1} = 1

$\beta_1 = 1$

β_{0}^{2} + β_{1}^{2} \leq t

$\beta_0^2 + \beta_1^2 \le t$

In welcher Beziehung steht diese Ableitung zur anderen Formulierung? Gemäß der Erklärung gibt es einen Wert von eindeutig entspricht. Wenn wir die bestrafte Formulierung des Problems optimieren, werden wir die gleichen und ableiten . In diesem Fall wird die bestrafte Form zu erweitert auf Um dies zu lösen, finden Sie die Lösung, bei der die partiellen Ableitungen mit hinsichtlich $\lambda$ $t$ $\beta_0$ $\beta_1$

{a r g m i n}_{β_{0}, β_{1}} (λ (β_{0}^{2} + β_{1}^{2}) + β_{0}^{2} + (1 - (β_{0} + β_{1}))^{2})

${argmin}_{\beta_0,\beta_1} ( \lambda (\beta_0^2 + \beta_1^2) + \beta_0^2 + (1 - (\beta_0 + \beta_1))^2 )$

{a r g m i n}_{β_{0}, β_{1}} (β_{0}^{2} λ + 2 β_{0}^{2} + 2 β_{0} β_{1} - 2 β_{0} + β_{1}^{2} λ + β_{1}^{2} - 2 β_{1} + 1)

${argmin}_{\beta_0,\beta_1} ( \beta_{0}^{2} \lambda + 2 \beta_{0}^{2} + 2 \beta_{0} \beta_{1} - 2 \beta_{0} + \beta_{1}^{2} \lambda + \beta_{1}^{2} - 2 \beta_{1} + 1 )$

β_{0}

$\beta_0$ und sind Null: für diese Gleichungen erhalte ich die Lösung Wenn das richtig ist der einzige Weg , um get gesetzt ist . Dies wäre jedoch das gleiche wir für benötigen würden. Was bedeuten sie also unter "Eins-zu-Eins-Korrespondenz"?

β_{1}

$\beta_1$

2 β_{0} λ + 4 β_{0} + 2 β_{1} - 2 = 0

$2 \beta_{0} \lambda + 4 \beta_{0} + 2 \beta_{1} - 2 = 0$

2 β_{0} + 2 β_{1} λ + 2 β_{1} - 2 = 0

$2 \beta_{0} + 2 \beta_{1} \lambda + 2 \beta_{1} - 2 = 0$

β_{0} = λ / (λ^{2} + 3 λ + 1)

$\beta_0 = \lambda/(\lambda^2 + 3\lambda + 1)$

β_{1} = (λ + 1) / ((λ + 1) (λ + 2) - 1)

$\beta_1 = (\lambda + 1)/((\lambda + 1)(\lambda + 2) - 1)$

β_{0} = 0

$\beta_0 = 0$

λ = 0

$\lambda = 0$

λ

$\lambda$

t = 4

$t = 4$

Zusammenfassend bin ich total verwirrt von den beiden Präsentationen und ich verstehe nicht, wie sie einander entsprechen. Ich verstehe nicht, wie Sie ein Formular optimieren und die gleiche Lösung für das andere Formular erhalten können oder wie mit . Dies ist nur ein Beispiel für diese Art von Korrespondenz - es gibt andere für andere Ansätze wie Lasso - und ich verstehe keinen von ihnen. $\lambda$ $t$

Jemand, bitte hilf mir.

regression ridge-regression

— user101311
quelle

Siehe auch : stats.stackexchange.com/questions/190993 (siehe die akzeptierte Antwort).

— Amöbe

Der "verwandte" Link bestätigt die in der Frage diskutierte Korrespondenz erneut, ohne diese Frage oder den gezeigten Beispielfall zu behandeln. Ich glaube nicht, dass es diese Frage beantwortet.

— Aaron Watters

Antworten:

Die Verwirrung entsteht hier durch den Versuch, in einem Bereich von oder Werten zu arbeiten, in denen die Regression nicht eingeschränkt ist. $t$ $\lambda$

In Ihrem Beispiel beträgt bei der perfekten Anpassung der Regressionslinie die Summe der Quadrate der Regressionskoeffizienten 1. Der Wert von (oder ein Wert von , der 1 oder größer ist) stellt also keine Einschränkung für die Regression dar. Im Raum der Werte wird die gesamte uneingeschränkte Regression durch . Es gibt keine Eins-zu-Eins-Entsprechung zwischen und in der uneingeschränkten Regression ; Alle Werte von von 1 oder höher entsprechen in diesem Fall . Das war die Region, die Sie untersucht haben. $t=2$ $t$ $\lambda$ $\lambda = 0$ $t$ $\lambda$ $t$ $\lambda=0$

Nur ein Wert von kleiner als 1 wird die Regression einschränken, was positiven Werten von . Wie die akzeptierte Antwort auf diese Seite zeigt, gilt die Eins-zu-Eins-Entsprechung zwischen und in Ihrem Beispiel für " wenn die Einschränkung bindend ist" für Werte von kleiner als 1. $t$ $\lambda$ $t$ $\lambda$ $t$

— EdM
quelle

In diesem Fall sollten sie behaupten, dass die Einschränkung verbindlich sein muss. Meinen Sie damit, dass wir damit die Äquivalenz gültig ist?

\sum β_{j}^{2} = t

$\sum \beta_j^2 = t$

— Aaron Watters

Fairerweise denke ich nicht, dass sich die Leute zu viele Sorgen um Details der eingeschränkten Optimierung machen, wenn die Einschränkung nicht bindend ist. Dann erhalten Sie einfach die gewöhnliche Lösung der kleinsten Quadrate. Wenn die Einschränkung bindend ist, sollte die Optimierung ein eindeutiges Ergebnis an der Grenze der Einschränkungsmenge liefern, so dass , wodurch unter diesen Umständen eine Eins-zu-Eins-Äquivalenz von mit bereitgestellt wird .

\sum β_{j}^{2} = t

$\sum{\beta_j^2} = t$

t

$t$

λ

$\lambda$

— EdM

+1. Wenn die Einschränkung nicht bindend ist, besteht immer noch eine Entsprechung zwischen und aber es ist keine Eins-zu-Eins: Jedes nicht bindende wird wie von @Aaron korrekt berechnet.

t

$t$

λ

$\lambda$

t

$t$

λ = 0

$\lambda=0$

— Amöbe

Zu Ihrer Information, ich bin ein Programmierer. Es ist wichtig zu wissen, wann eine Methode geeignet ist, wenn Sie Computerprogramme schreiben. "Die Einschränkung muss verbindlich sein" scheint in vielen Präsentationen der Methode weggelassen zu werden.

— Aaron Watters

Die klassische Ridge Regression ( Tikhonov Regularization ) ist gegeben durch:

\arg min_{x} \frac{1}{2} {‖ x - y ‖}_{2}^{2} + λ {‖ x ‖}_{2}^{2}

$\arg \min_{x} \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} + \lambda {\left\| x \right\|}_{2}^{2}$

Die obige Behauptung ist, dass das folgende Problem äquivalent ist:

\begin{aligned} \arg min_{x} & \frac{1}{2} {‖ x - y ‖}_{2}^{2} \\ subject to & {‖ x ‖}_{2}^{2} \leq t \end{aligned}

$\begin{align*} \arg \min_{x} \quad & \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} \\ \text{subject to} \quad & {\left\| x \right\|}_{2}^{2} \leq t \end{align*}$

Definieren wir als die optimale Lösung des ersten Problems und als die optimale Lösung des zweiten Problems. $\hat{x}$ $\tilde{x}$

Der Äquivalenzanspruch bedeutet, dass . Sie können nämlich immer ein Paar von und so dass die Lösung des Problems dieselbe ist. $\forall t, \: \exists \lambda \geq 0 : \hat{x} = \tilde{x}$
$t$ $\lambda \geq 0$

Wie könnten wir ein Paar finden?
Nun, indem Sie die Probleme lösen und die Eigenschaften der Lösung betrachten.
Beide Probleme sind konvex und glatt, so dass die Dinge einfacher werden sollten.

Die Lösung für das erste Problem wird an dem Punkt gegeben, an dem der Gradient verschwindet, was bedeutet:

\hat{x} - y + 2 λ \hat{x} = 0

$\hat{x} - y + 2 \lambda \hat{x} = 0$

Die KKT-Bedingungen des zweiten Problems besagen:

\tilde{x} - y + 2 μ \tilde{x} = 0

$\tilde{x} - y + 2 \mu \tilde{x} = 0$

und

μ ({‖ \tilde{x} ‖}_{2}^{2} - t) = 0

$\mu \left( {\left\| \tilde{x} \right\|}_{2}^{2} - t \right) = 0$

Die letzte Gleichung legt nahe, dass entweder oder . $\mu = 0$ ${\left\| \tilde{x} \right\|}_{2}^{2} = t$

Achten Sie darauf, dass die beiden Basisgleichungen äquivalent sind.
Nämlich wenn und beide Gleichungen gelten. $\hat{x} = \tilde{x}$ $\mu = \lambda$

Das bedeutet also, dass im Fall man muss was bedeutet, dass für groß genug, damit beide gleichwertig sind, man . ${\left\| y \right\|}_{2}^{2} \leq t$ $\mu = 0$ $t$ $\lambda = 0$

Im anderen Fall sollte man wo: $\mu$

y^{t} {(I + 2 μ I)}^{- 1} {(I + 2 μ I)}^{- 1} y = t

${y}^{t} \left( I + 2 \mu I \right)^{-1} \left( I + 2 \mu I \right)^{-1} y = t$

Dies ist im Grunde genommen, wenn ${\left\| \tilde{x} \right\|}_{2}^{2} = t$

Sobald Sie feststellen, dass die Lösungen kollidieren. $\mu$

In Bezug auf den Fall funktioniert dies mit derselben Idee. Der einzige Unterschied besteht darin, dass wir keine Lösung gefunden haben. Daher ist es schwieriger, die Verbindung abzuleiten. ${L}_{1}$

Schauen Sie sich meine Antwort unter StackExchange Cross Validated Q291962 und StackExchange Signal Processing Q21730 an - Bedeutung von in Basis Pursuit $\lambda$ .

— Royi
quelle

Woher kam der Mu?

— Tatami

Das Obige löst 2 verschiedene Probleme. Da der erste ich als Lagrange-Multiplikator für die Ungleichheitsbeschränkungen des zweiten verwendet.

λ

$\lambda$

μ

$\mu$

— Royi