Dies betrifft die Varianz
OLS bietet den sogenannten Best Linear Unbias Estimator (BLAU) . Wenn Sie also einen anderen unverzerrten Schätzer verwenden, ist die Varianz zwangsläufig höher als bei der OLS-Lösung. Warum um alles in der Welt sollten wir etwas anderes in Betracht ziehen?
Nun besteht der Trick bei der Regularisierung, z. B. beim Lasso oder Kamm, darin, der Reihe nach eine gewisse Verzerrung hinzuzufügen, um die Varianz zu verringern. Denn wenn Sie Ihre Vorhersagefehler schätzen, es ist eine Kombination von drei Dingen :
E [ ( y- f^( x ) )2] = Vorspannung [ f^( x ) ) ]2+ Var [ f^( x ) ) ] + σ2
Der letzte Teil ist der irreduzible Fehler, daher haben wir keine Kontrolle darüber. Bei Verwendung der OLS-Lösung ist der Bias-Term Null. Aber es könnte sein, dass die zweite Amtszeit groß ist. Es könnte eine gute Idee sein (
wenn wir gute Vorhersagen wollen ), eine gewisse Verzerrung hinzuzufügen und hoffentlich die Varianz zu verringern.
Was also ist das ? Dies ist die Varianz, die in den Schätzungen für die Parameter in Ihrem Modell eingeführt wurde. Das lineare Modell hat die Form
y = X β + ϵ ,Var [ f^( x ) ) ]
Um die OLS-Lösung zu erhalten, lösen wir das Minimierungsproblem
arg min β | | y - X β | | 2
Dies bietet die Lösung
β OLS = ( X T X ) - 1 X T y
das Minimierungsproblem für Firstregressions ähnelt:
arg min β | | y - X β | |
y = X β+ ϵ ,ε ~ N( 0 , σ2ich)
argMindestβ| | y - X β| |2
β^OLS= ( XTX )- 1XTy
Nun wird die Lösung
β Ridge = ( X T X + λ I ) - 1 X T y
So werden wir diese Zugabe
λ I auf den Diagonalen der Matrix (der Grat bezeichnet)daß wir Invertzucker. Der Effekt, den dies auf die Matrix
X T X hat, ist, dass esdie Determinante der Matrix von Null weg"
zieht". Wenn Sie es also invertieren, erhalten Sie keine großen Eigenwerte. Dies führt jedoch zu einer weiteren interessanten Tatsache, nämlich dass die Varianz der Parameterschätzungen geringer wird.
argMindestβ| | y - X β| |2+ λ | | β| |2λ > 0
β^Grat= ( XTX +λI)- 1XTy
λ IXTX
Ich bin mir nicht sicher, ob ich eine klarere Antwort geben kann. Auf die Kovarianzmatrix für die Parameter im Modell und die Größe der Werte in dieser Kovarianzmatrix kommt es an.
Ich habe als Beispiel die Gratregression genommen, weil das viel einfacher zu behandeln ist. Das Lasso ist viel schwieriger und es gibt immer noch aktive Forschung zu diesem Thema.
Diese Folien enthalten weitere Informationen, und dieser Blog enthält auch einige relevante Informationen.
EDIT: Was ich damit meine durch den Grat Zugabe der Determinante „ gezogen “ von Null weg?
XTX
det ( XTX -tich) = 0
tdet ( XTX +λI- t ich) = 0
det ( XTX -(t-λ)I) = 0
( t - λ )tichtich+ λλ
Hier ist ein R-Code, um dies zu veranschaulichen:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
Welches gibt die Ergebnisse:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Alle Eigenwerte werden also um genau 3 nach oben verschoben.
Sie können dies auch allgemein beweisen, indem Sie den Gershgorin-Kreissatz verwenden . Dort sind die Zentren der Kreise, die die Eigenwerte enthalten, die diagonalen Elemente. Sie können dem diagonalen Element immer "genug" hinzufügen, um alle Kreise in der positiven realen Halbebene zu erstellen. Dieses Ergebnis ist allgemeiner und wird dafür nicht benötigt.