Das ist eine interessante Frage. Überraschenderweise ist es möglich, unter bestimmten Voraussetzungen etwas zu tun, es besteht jedoch ein möglicher Informationsverlust über die Restvarianz. Es kommt darauf anX wie viel verloren geht.
Betrachten wir die folgende Singularwertzerlegung X=UDVt von X mit U an n×p Matrix mit orthonormalen Spalten, D eine Diagonalmatrix mit positiven Singularwerten d1≥d2≥...≥dp>0 in der Diagonale und V a p×p orthogonale Matrix. Dann sind die Spalten von U eine orthonormale Basis für den Spaltenraum von Xund
Z=UtY=D−1VtVDUtY=D−1VtXtY
ist der Koeffizientenvektor für die Projektion von
Y auf diesen Spaltenraum, wenn in der
U Spaltenbasis expandiert . Aus der Formel sehen wir, dass
Z nur aus Kenntnis von
X und
berechenbar ist
XtY.
Da der Grat Regressions Prädiktor für ein gegebenes berechnet werden als
Y = X ( X T X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U t Y = U D ( D 2 + λ I ) - 1 D Z sehen
wir, dass die Koeffizienten für den Gratregressionsprädiktor in derλ
Y^=X(XtX+λI)−1XtY=UD(D2+λI)−1DUtY=UD(D2+λI)−1DZ
-Säule Basis sind
Z = D (U
Nun nehmen wir die Verteilungsannahme an, dass
Y das
n- dimensionale Mittel
ξ und die Kovarianzmatrix
σ 2 I n hat . Dann hat
Z das
p- dimensionale Mittel
U t ξ und die Kovarianzmatrix
σ 2 I p . Stellen wir uns ein unabhängigesmit der gleichen Verteilung wie
Y vor (alles von hier aus bedingt auf
X ), so ist das entsprechende
ZZ^=D(D2+λI)−1DZ.
Ynξσ2InZpUtξσ2IpYNewYX die gleiche Verteilung wie
Zund ist unabhängig und
E | | Y New - Y | | 2ZNew=UtYNewZ
Hierdie dritte Gleichung folgt durch Orthogonalität von
YNeu-UZNeuenund
UZNew-U Z und den vierten durch die Tatsachedass
Uorthonormal Spalten. Die Größe
Err0ist ein Fehler, über den wir keine Informationen erhalten können, der jedoch nicht von
λabhängt
E||YNew−Y^||2===E||YNew−UZNew+UZNew−UZ^||2E||YNew−UZNew||2+E||UZNew−UZ^||2Err0+E||ZNew−Z^||2.
YNew−UZNewUZNew−UZ^UErr0λentweder. Um den Vorhersagefehler auf der linken Seite zu minimieren, müssen wir den zweiten Term auf der rechten Seite minimieren.
Durch eine Standardberechnung
E||ZNew−Z^||2==E||Z−Z^||2+2∑i=1pcov(Zi,Z^i)E||Z−Z^||2+2σ2∑i=1pd2id2i+λdf(λ).
Here
df(λ) is known as the effective degrees of freedom for ridge regression with parameter
λ. An unbiased estimator of
E||Z−Z^||2 is
err(λ)=||Z−Z^||2=∑i=1p(1−d2id2i+λ)2Z2i.
We combine this with the (unbiased) estimator
err(λ)+2σ2df(λ)
of
E||ZNew−Z^||2 given that we know
σ2, which we then need to minimize. Obviously, this can only be done if we know
σ2 or have a reasonable guess at or estimator of
σ2.
Estimating σ2 can be more problematic. It is possible to show that
E||Z−Z^||2=σ2⎛⎝⎜⎜⎜⎜⎜p−∑i=1pd2id2i+λ(2−d2id2i+λ)d(λ)⎞⎠⎟⎟⎟⎟⎟+bias(λ)2.
Thus if it is possible to choose
λ so small that the squared bias can be ignored we can try to estimate
σ2 as
σ^2=1p−d(λ)||Z−Z^||2.
If this will work depends a lot on
X.
For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.