Ich scheine eine Behauptung über lineare Regressionsmethoden, die ich an verschiedenen Orten gesehen habe, falsch zu verstehen. Die Parameter des Problems sind:
Eingang:
p + 1 y i p x i j Datenproben von Größen, die jeweils aus einer "Antwort" -Größe und "Prädiktor" -Größen
Das gewünschte Ergebnis ist eine "gute lineare Anpassung", die die Antwort basierend auf den Prädiktoren vorhersagt, wobei eine gute Anpassung (unter anderen Kriterien) kleine Unterschiede zwischen der Vorhersage und der beobachteten Antwort aufweist.
Ausgabe: Koeffizienten wobei eine "gute Anpassung" für die Vorhersage der Antwortgröße aus den Prädiktorgrößen ist.
Ich bin verwirrt über den "Ridge Regression" -Ansatz für dieses Problem. In "Die Elemente des statistischen Lernens" von Hastie, Tibshirani und Friedman wird die Gratregression auf zwei Arten formuliert.
Zunächst als eingeschränktes Optimierungsproblem :
p Σ j = 1 β 2 i ≤t
Zweitens ist das bestrafte Optimierungsproblem : für einen positiven Parameter . λ
Der Text sagt, dass diese Formulierungen äquivalent sind und dass es eine "Eins-zu-Eins-Entsprechung zwischen den Parametern und " gibt. Ich habe diese Behauptung (und ähnliche) zusätzlich zu diesem Buch an mehreren Stellen gesehen. Ich glaube, mir fehlt etwas, weil ich nicht sehe, wie die Formulierungen gleichwertig sind, wie ich es verstehe.t
Betrachten Sie den Fall, in dem und mit , und , . Wenn Sie den Parameter wählen, wird die eingeschränkte Formulierung zu:p = 1 y 1 = 0 x 1 , 1 = 0 y 2 = 1 x 1 , 2 = 1 t = 2
erweitert auf
Um dies zu lösen, finden Sie die Lösung, bei der die partiellen Ableitungen in Bezug auf und Null sind: mit Lösung und . Beachten Sie, dass nach Bedarf.β 1 4 β 0 + 2 β 1 - 2 = 0 2 β 0 + 2 β 1 - 2 = 0 β 0 = 0 β 1 = 1 β 2 0 + β 2 1 ≤ t
In welcher Beziehung steht diese Ableitung zur anderen Formulierung? Gemäß der Erklärung gibt es einen Wert von eindeutig entspricht. Wenn wir die bestrafte Formulierung des Problems optimieren, werden wir die gleichen und ableiten . In diesem Fall wird die bestrafte Form zu erweitert auf Um dies zu lösen, finden Sie die Lösung, bei der die partiellen Ableitungen mit hinsichtlicht λ + 2 β 2
Zusammenfassend bin ich total verwirrt von den beiden Präsentationen und ich verstehe nicht, wie sie einander entsprechen. Ich verstehe nicht, wie Sie ein Formular optimieren und die gleiche Lösung für das andere Formular erhalten können oder wie mit . Dies ist nur ein Beispiel für diese Art von Korrespondenz - es gibt andere für andere Ansätze wie Lasso - und ich verstehe keinen von ihnen.t
Jemand, bitte hilf mir.