Die Ridge-Regression schätzt die Parameter in einem linearen Modell \ mathbf y = \ mathbf X \ boldsymbol \ beta nach \ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y, wobei \ lambda ein Regularisierungsparameter ist. Es ist bekannt, dass es häufig eine bessere Leistung als die OLS-Regression (mit \ lambda = 0 ) erzielt, wenn es viele korrelierte Prädiktoren gibt.
Ein Existenzsatz für die Gratregression besagt, dass es immer einen Parameter so dass der mittlere Fehlerquadrat von genau kleiner ist als der mittlere Fehlerquadrat des OLS Schätzung . Mit anderen Worten, ein optimaler Wert von ist immer ungleich Null. Dies wurde anscheinend erstmals 1970 in Hoerl und Kennard nachgewiesen und wiederholt sich in vielen Vorlesungsskripten, die ich online finde (z. B. hier und hier ). Meine Frage bezieht sich auf die Annahmen dieses Theorems:
Gibt es irgendwelche Annahmen über die Kovarianzmatrix ?
Gibt es irgendwelche Annahmen über die Dimensionalität von ?
Insbesondere ist der Satz noch wahr, wenn Prädiktoren orthogonal sind (dh ist diagonal), oder sogar wenn ? Und ist es immer noch wahr, wenn es nur einen oder zwei Prädiktoren gibt (z. B. einen Prädiktor und einen Intercept)?
Wenn der Satz keine solchen Annahmen trifft und auch in diesen Fällen wahr bleibt, warum wird dann die Kammregression normalerweise nur für korrelierte Prädiktoren empfohlen und niemals (?) Für die einfache (dh nicht multiple) Regression?
Dies hängt mit meiner Frage über die einheitliche Sichtweise der Schrumpfung zusammen: In welcher Beziehung (falls vorhanden) befinden sich Steins Paradoxon, Gratregression und Zufallseffekte in gemischten Modellen? , aber keine Antworten dort klären diesen Punkt bis jetzt.