Auf Seite 223 in Eine Einführung in das statistische Lernen fassen die Autoren die Unterschiede zwischen Gratregression und Lasso zusammen. Sie liefern ein Beispiel (Abbildung 6.9) für den Fall, dass "Lasso dazu neigt, die Gratregression in Bezug auf Bias, Varianz und MSE zu übertreffen".
Ich verstehe, warum Lasso wünschenswert sein kann: Es führt zu spärlichen Lösungen, da es viele Koeffizienten auf 0 verkleinert, was zu einfachen und interpretierbaren Modellen führt. Aber ich verstehe nicht, wie es den Kamm übertreffen kann, wenn nur Vorhersagen von Interesse sind (dh wie wird im Beispiel eine wesentlich niedrigere MSE erzielt?).
Wenn bei Ridge viele Prädiktoren die Reaktion kaum beeinflussen (wobei einige Prädiktoren einen großen Effekt haben), werden ihre Koeffizienten nicht einfach auf eine kleine Zahl nahe Null geschrumpft. Dies führt zu einem ähnlichen Ergebnis wie bei Lasso ? Warum sollte das endgültige Modell eine schlechtere Leistung als Lasso haben?