Betrachten Sie die lineare Gleichung
X β= y,
und der SVD von X,
X = USVT,
woher S =diag( sich) ist die diagonale Matrix der singulären Werte.
Ordentliche kleinste Quadrate bestimmen den Parametervektor β wie
βO L S= VS- 1UT
Dieser Ansatz schlägt jedoch fehl, sobald es einen singulären Wert gibt, der Null ist (da dann die Inverse nicht existiert). Darüber hinaus, auch wenn neinsich genau Null ist, können numerisch kleine Singularwerte die Matrix schlecht konditionieren und zu einer sehr fehleranfälligen Lösung führen.
Ridge-Regression und PCA stellen zwei Methoden vor, um diese Probleme zu vermeiden. Gratregression ersetztS- 1 in der obigen Gleichung für β durch
S- 1GratβGrat= diag ( sichs2ich+ α) ,= V S- 1GratUT
PCA ersetzt S- 1 durch
S- 1PCAβPCA= diag ( 1sichθ ( sich- γ) ),= V S- 1PCAUT
wehre θ ist die Sprungfunktion und γ ist der Schwellwertparameter.
Beide Methoden schwächen somit die Auswirkung von Teilräumen, die kleinen Werten entsprechen. PCA tut dies auf harte Weise, während der Grat eine glattere Annäherung ist.
Noch abstrakter: Überlegen Sie sich Ihr eigenes Regularisierungsschema
S- 1myReg= diag ( R ( sich) ),
woher R ( x ) ist eine Funktion, die für gegen Null gehen sollte x → 0 und R ( x ) → x- 1 zum xgroß. Aber denk dran, es gibt kein kostenloses Mittagessen.