+1 auf Glen_bs Illustration und die Statistikkommentare zum Ridge Estimator. Ich möchte nur eine rein mathematische (lineare Algebra) POV zur Ridge-Regression hinzufügen, die die Fragen 1) und 2) des OP beantwortet.
Zunächst ist zu beachten, dass eine symmetrische positive semidefinite Matrix ist - mal die Sample-Kovarianzmatrix. Daher hat es die EigenzerlegungX′Xp×pn
X′X=VDV′,D=⎡⎣⎢⎢d1⋱dp⎤⎦⎥⎥,di≥0
Da nun die Matrixinversion der Inversion der Eigenwerte entspricht, benötigt der OLS-Schätzer (beachte, dass ). Offensichtlich funktioniert dies nur, wenn alle Eigenwerte streng größer als Null sind, . Für dies unmöglich; für es im Allgemeinen wahr - hier geht es in der Regel um Multikollinearität .(X′X)−1=VD−1V′V′=V−1di>0p≫nn≫p
Als Statistiker wollen wir auch wissen, wie kleine Störungen in den Daten die Schätzungen verändern. Es ist klar, dass eine kleine Änderung in jedem zu einer großen Änderung in wenn sehr klein ist.Xdi1/didi
Ridge-Regression verschiebt also alle Eigenwerte weiter von Null als
X′X+λIp=VDV′+λIp=VDV′+λVV′=V(D+λIp)V′,
das nun Eigenwerte . Aus diesem Grund macht die Auswahl eines positiven Strafparameters die Matrix invertierbar - auch im Fall von . Für die Ridge-Regression hat eine kleine Variation in den Daten nicht mehr den extrem instabilen Effekt, den sie auf die Matrixinversion hat.
di+λ≥λ≥0p≫nX
Die numerische Stabilität hängt mit der Schrumpfung auf Null zusammen, da beide eine Folge der Addition einer positiven Konstante zu den Eigenwerten sind: Sie macht sie stabiler, weil eine kleine Störung in das Inverse nicht zu sehr ändert; es schrumpft nahe an da jetzt der Term mit multipliziert wird, was näher an Null liegt als die OLS-Lösung mit den inversen Eigenwerten .X0V−1X′y1/(di+λ)1/d