Antworten:
In dem Buch The Elements of Statistical Learning beschreiben Hastie et al. bieten einen sehr aufschlussreichen und gründlichen Vergleich dieser Schrumpftechniken. Das Buch ist online verfügbar ( pdf ). Der Vergleich erfolgt in Abschnitt 3.4.3, Seite 69.
Der Hauptunterschied zwischen Lasso und Ridge ist der von ihnen verwendete Strafausdruck. Ridge verwendet einen -Strafausdruck, der die Größe des Koeffizientenvektors begrenzt. Lasso verwendet die Strafe L 1, die die Koeffizienten sparsam macht und so das angepasste Modell interpretierbarer macht. Elasticnet wird als Kompromiss zwischen diesen beiden Techniken eingeführt und hat eine Strafe, die eine Mischung aus L 1 - und L 2 -Normen darstellt.
Zusammenfassend sind hier einige hervorstechende Unterschiede zwischen Lasso, Ridge und Elastic-net:
Ich habe Ihnen dringend empfohlen, sich eine Einführung in das statistische Lernbuch anzuschauen (Tibshirani et al., 2013).
Der Grund dafür ist, dass Elemente des statistischen Lernbuchs für Personen mit fortgeschrittener Ausbildung in den mathematischen Wissenschaften gedacht sind. Im Vorwort zu ISL schreiben die Autoren:
Eine Einführung in das statistische Lernen ergab sich aus der empfundenen Notwendigkeit einer breiteren und weniger technischen Behandlung dieser Themen. [...]
Eine Einführung in das statistische Lernen ist für fortgeschrittene Studenten oder Masterstudenten in Statistik oder verwandten quantitativen Bereichen oder für Personen in anderen Disziplinen geeignet, die statistische Lernwerkzeuge zur Analyse ihrer Daten verwenden möchten.
Die obigen Antworten sind sehr klar und informativ. Aus statistischer Sicht möchte ich einen kleinen Punkt hinzufügen. Nehmen Sie die Gratregression als Beispiel. Es ist eine Erweiterung der ordinalen Regression kleinster Quadrate, um die Multikollinearitätsprobleme zu lösen, wenn es viele korrelierte Merkmale gibt. Wenn die lineare Regression ist
Y=Xb+e
Die normale Gleichungslösung für die multiple lineare Regression
b=inv(X.T*X)*X.T*Y
Die normale Gleichungslösung für die Gratregression ist
b=inv(X.T*X+k*I)*X.T*Y.
Es ist ein verzerrter Schätzer für b, und wir können immer einen Strafterm k finden, der den mittleren quadratischen Fehler der Ridge-Regression kleiner als den der OLS-Regression macht.
Für LASSO und Elastic-Net konnten wir keine solche analytische Lösung finden.