Zeigen der Äquivalenz zwischen der regulierten Regression der


11

Gemäß den Referenzen Buch 1 , Buch 2 und Papier .

Es wurde erwähnt, dass es eine Äquivalenz zwischen der regulierten Regression (Ridge, LASSO und Elastic Net) und ihren Einschränkungsformeln gibt.

Ich habe mir auch Cross Validated 1 und Cross Validated 2 angesehen , aber ich kann keine klare Antwort sehen, die diese Äquivalenz oder Logik zeigt.

Meine Frage ist

Wie kann man diese Äquivalenz mit Karush-Kuhn-Tucker (KKT) zeigen?

Die folgenden Formeln gelten für die Ridge-Regression.

Grat

HINWEIS

Diese Frage ist keine Hausaufgabe. Es dient nur dazu, mein Verständnis für dieses Thema zu verbessern.

AKTUALISIEREN

Ich habe noch keine Idee.


Warum brauchen Sie mehr als eine Antwort? Die aktuelle Antwort scheint die Frage umfassend zu beantworten. Wenn Sie mehr über Optimierungsmethoden erfahren möchten, ist die konvexe Optimierung Lieven Vandenberghe und Stephen P. Boyd ein guter Ausgangspunkt.
Sycorax sagt Reinstate Monica

@Sycorax, danke für deine Kommentare und das Buch, das du mir zur Verfügung stellst. Die Antwort ist für mich nicht so klar und ich kann nicht um mehr Klarstellung bitten. Somit kann mehr als eine Antwort mich eine andere Perspektive und Art der Beschreibung sehen lassen.
Jeza

@jeza, Was fehlt in meiner Antwort?
Royi

1
Bitte geben Sie Ihre Frage als Text ein, posten Sie nicht nur ein Foto (siehe hier ).
Gung - Reinstate Monica

Antworten:


10

Die technischere Antwort ist, dass das eingeschränkte Optimierungsproblem in Form von Lagrange-Multiplikatoren geschrieben werden kann. Insbesondere ist der Lagrange , der mit dem eingeschränkten Optimierungsproblem verbunden ist, gegeben durch

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}}
wobeiμist ein Multiplikator, der ausgewählt wurde, um die Einschränkungen des Problems zu erfüllen. Die Bedingungen erster Ordnung (die ausreichen, da Sie mit guten richtigen konvexen Funktionen arbeiten) für dieses Optimierungsproblem können daher erhalten werden, indem der Lagrange in Bezug auf β differenziert und die Ableitungen gleich 0 gesetzt werden (seit dem LASSO etwas nuancierter) Teil hat undifferenzierbare Punkte, aber es gibt Methoden aus der konvexen Analyse um die Ableitung zu verallgemeinern, damit die Bedingung erster Ordnung noch funktioniert. Es ist klar, dass diese Bedingungen erster Ordnung mit den Bedingungen erster Ordnung des von Ihnen aufgeschriebenen uneingeschränkten Problems identisch sind.

Ich denke jedoch, es ist nützlich zu sehen, warum es bei diesen Optimierungsproblemen im Allgemeinen oft möglich ist, über das Problem entweder durch die Linse eines eingeschränkten Optimierungsproblems oder durch die Linse eines nicht eingeschränkten Problems nachzudenken. Nehmen wir konkreter an, wir haben ein uneingeschränktes Optimierungsproblem der folgenden Form:

maxxf(x)+λg(x)
Wir können immer versuchen, diese Optimierung direkt zu lösen, aber manchmal kann es sinnvoll sein, dieses Problem in Unterkomponenten zu unterteilen . Insbesondere ist es nicht schwer zu erkennen, dass
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
Für einen festen Wert vonλ (und unter der Annahme, dass die zu optimierenden Funktionen tatsächlich ihre Optima erreichen) können wir also assoziieren es ist ein Werttdas löst das äußere Optimierungsproblem. Dies gibt uns eine Art Zuordnung von uneingeschränkten Optimierungsproblemen zu eingeschränkten Problemen. In Ihrer speziellen Einstellung sollte diese Zuordnung tatsächlich eins zu eins sein, da sich für die elastische Netzregression alles gut verhält. Daher ist es hilfreich, zwischen diesen beiden Kontexten wechseln zu können, je nachdem, welcher für eine bestimmte Anwendung nützlicher ist. Im Allgemeinen verhält sich diese Beziehung zwischen eingeschränkten und nicht eingeschränkten Problemen möglicherweise weniger gut, aber es kann dennoch nützlich sein, darüber nachzudenken, inwieweit Sie zwischen dem eingeschränkten und dem nicht eingeschränkten Problem wechseln können.

Bearbeiten: Wie gewünscht, werde ich eine konkretere Analyse für die Gratregression aufnehmen, da sie die Hauptideen erfasst und gleichzeitig vermeidet, sich mit den technischen Details zu befassen, die mit der Nichtdifferenzierbarkeit der LASSO-Strafe verbunden sind. Denken Sie daran, wir lösen das Optimierungsproblem (in Matrixnotation):

argminβ{i=1NyixiTβ}s.t.||β||2M

Sei βOLS die OLS-Lösung (dh wenn es keine Einschränkung gibt). Dann werde ich mich auf den Fall konzentrieren, in dem M<||βOLS||(sofern dies vorhanden ist), da die Einschränkung ansonsten uninteressant ist, da sie nicht bindet. Der Lagrange für dieses Problem kann geschrieben werden

L(β)=argminβ{i=1NyixiTβ}μ||β||2M
Wennwirdanndifferenzieren, erhalten wir Bedingungen erster Ordnung:
0=2(i=1Nyixi+(i=1NxixiT+μI)β)
was nur ein System von ist lineare Gleichungen und können folglich gelöst
β^=(i=1NxixiT+μI)1(i=1Nyixi)
μ

((i=1NxixiT+μI)1(i=1Nyixi))T((i=1NxixiT+μI)1(i=1Nyixi))=M
which exists since the LHS is monotonic in μ. This equation gives an explicit mapping from multipliers μ(0,) to constraints, M(0,||βOLS||) with
limμ0M(μ)=||βOLS||
when the RHS exists and
limμM(μ)=0
This mapping actually corresponds to something quite intuitive. The envelope theorem tells us that μ(M) corresponds to the marginal decrease in error we get from a small relaxation of the constraint M. This explains why when μ0 corresponds to M||βOLS||. Once the constraint is not binding, there is no value in relaxing it any more, which is why the multiplier vanishes.


could you please provide us with a detailed answer step by step with a practical example if that possible.
jeza

many thanks, why you do not mention KKT? I am not familiar with this area, so treat me as a high school student.
jeza

The KKT conditions in this case are a generalization of the “first order conditions” I mention by differentiating the Lagrangian and setting the derivative equal to 0. Since in this example, the constraints hold with equality, we don’t need the KKT conditions in full generally. In more complicated cases, all that happens is that some of the equalities above become inequalities and the multiplier becomes 0 for constraints become non binding . For example, this is exactly what happens when M>||βOLS|| in the above.
stats_model

3

There is a great analysis by stats_model in his answer.

I tried answering similar question at The Proof of Equivalent Formulas of Ridge Regression.

I will take more Hand On approach for this case.
Let's try to see the mapping between t and λ in the 2 models.

As I wrote and can be seen from stats_model in his analysis the mapping depends on the data. Hence we'll chose a specific realization of the problem. Yet the code and sketching the solution will add intuition to what's going on.

We'll compare the following 2 models:

The Regularized Model: argminx12Axy22+λx22

The Constrained Model: argminx12Axy22subject tox22t

Let's assume that x^ to be the solution of the regularized model and x~ to be the solution of the constrained model.

We're looking at the mapping from t to λ such that x^=x~.
Looking on my solution to Solver for Norm Constraint Least Squares one could see that solving the Constrained Model involves solving the Regularized Model and finding the λ that matches the t (The actual code is presented in Least Squares with Euclidean ( L2 ) Norm Constraint).

So we'll run the same solver and for each t we'll display the optimal λ.

The solver basically solves:

argλλsubject to(ATA+2λI)1ATb22t=0

So here is our Matrix:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

And here is our vector:

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

This is the mapping:

enter image description here

As can be seen above, for high enough value of t the parameter λ=0 as expected.

Zooming in to the [0, 10] range:

enter image description here

The full code is available on my StackExchange Cross Validated Q401212 GitHub Repository.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.