Die Frage scheint nach einem Nachweis zu fragen, dass die Ridge Regression die Koeffizientenschätzungen unter Verwendung einer spektralen Zerlegung gegen Null schrumpft. Die spektrale Zerlegung kann als einfache Folge der Singular Value Decomposition (SVD) verstanden werden. Daher beginnt dieser Beitrag mit SVD. Es erklärt es in einfachen Worten und veranschaulicht es dann mit wichtigen Anwendungen. Anschließend wird die angeforderte (algebraische) Demonstration bereitgestellt. (Die Algebra ist natürlich identisch mit der geometrischen Demonstration; sie ist lediglich in einer anderen Sprache abgefasst.)
Die ursprüngliche Quelle dieser Antwort finden Sie in meinen Anmerkungen zum Regressionskurs . Diese Version korrigiert einige kleinere Fehler.
Was ist die SVD?
Jede Matrix mit kann geschrieben werden woX p ≤ n X = U D V 'n×pXp≤n
X=UDV′
U ist eine Matrix.n×p
- Die Spalten von haben die Länge .1U1
- Die Spalten von sind zueinander orthogonal.U
- Sie werden die Hauptkomponenten von .X
V ist eine Matrix.p×p
- Die Spalten von haben die Länge .1V1
- Die Spalten von sind zueinander orthogonal.V
- Dies macht einer Rotation von .VRp
D ist eine diagonale Matrix.p×p
- Die diagonalen Elemente sind nicht negativ. Dies sind die singulären Werte von X .d11,d22,…,dppX
- Wenn wir möchten, können wir sie vom größten zum kleinsten bestellen.
Kriterien (1) und (2) behaupten , dass sowohl und V sind orthonormal Matrices. Sie können durch die Bedingungen übersichtlich zusammengefasst werdenUV
U′U=1p, V′V=1p.
Infolgedessen (dass eine Drehung darstellt) ist auch V V ' = 1 p . Dies wird in der folgenden Ableitung der Ridge-Regression verwendet.VVV′=1p
Was es für uns tut
Es kann Formeln vereinfachen. Dies funktioniert sowohl algebraisch als auch konzeptionell. Hier sind einige Beispiele.
Die normalen Gleichungen
Betrachten wir die Regressions wobei, wie üblich, die ε sind unabhängig und identisch verteilt gemäß einem Gesetz , das Null Erwartung und finite Varianz σ 2 . Die Lösung der kleinsten Quadrate über die Normalgleichungen ist β = ( X ' X ) - 1 X ' y . Das Anwenden der SVD und das Vereinfachen des resultierenden algebraischen Durcheinanders (was einfach ist) bietet einen schönen Einblick:y=Xβ+εεσ2
β^=(X′X)−1X′y.
(X′X)−1X′=((UDV′)′(UDV′))−1(UDV′)′=(VDU′UDV′)−1(VDU′)=VD−2V′VDU′=VD−1U′.
Der einzige Unterschied zwischen diesem und ist , dass die reziproken Werte der Elemente der D verwendet werden! In anderen Worten, der „Gleichung“ y = X β ist gelöst durch „Invertieren“ X : Diese pseudo-Inversion rückgängig macht die Rotationen U und V ' (nur durch sie zur Umsetzung) und löst die Multiplikation (dargestellt durch D ) getrennt in jeder Haupt Richtung.X′=VDU′Dy=XβXUV′D
Für die Zukunft, bemerkt , dass „gedreht“ schätzt & beta Linearkombinationen von „gedreht“ -Antworten sind U ' y . Die Koeffizienten sind Inverse der (positiven) diagonalen Elemente von D , gleich d - 1 i i .V′β^U′yDd−1ii
Kovarianz der Koeffizientenschätzungen
Recall , dass die Kovarianz der Schätzungen ist Unter Verwendung des SVD wird diese σ 2 ( V D 2 V ' ) - 1 = σ 2 V D - 2 V ' . Mit anderen Worten, die Kovarianz verhält sich wie die von k orthogonalen Variablen mit jeweils Varianzen d 2 i i
Cov(β^)=σ2(X′X)−1.
σ2(VD2V′)−1=σ2VD−2V′.
k d2ii, die in
.
Rk
Die Hutmatrix
H=X(X′X)−1X′.
H=(UDV′)(VD−1U′)=UU′.
Eigenanalyse (spektrale Zerlegung)
X′X=VDU′UDV′=VD2V′
XX′=UDV′VDU′=UD2U′,
- X′XXX′
- VX′X
- UXX′
SVD kann Kollinearitätsprobleme diagnostizieren und lösen.
Annäherung an die Regressoren
UDV′Uy
Ridge Regression
XyXλ>0
β^R=(X′X+λ)−1X′y=(VD2V′+λ1p)−1VDU′y=(VD2V′+λVV′)−1VDU′y=(V(D2+λ)V′)−1VDU′y=V(D2+λ)−1V′VDU′y=V(D2+λ)−1DU′y.
β^D−1=D−2D(D2+λ)−1DD2/(D2+λ)λ>0
V′β^RU′yd−1iid2ii/(d2ii+λ)λβ^R
d−1ii