Antworten:
Der LASSO (Least Absolute Shrinkage and Selection Operator) ist eine Regressionsmethode, bei der die absolute Größe der Regressionskoeffizienten bestraft wird.
Wenn Sie die Summe der absoluten Werte der Schätzungen bestrafen (oder gleichwertig einschränken), geraten Sie in eine Situation, in der einige der Parameterschätzungen möglicherweise genau null sind. Je höher die Strafe ist, desto weiter gehen die Schätzungen gegen Null.
Dies ist praktisch, wenn wir eine automatische Auswahl von Merkmalen / Variablen wünschen oder wenn wir uns mit stark korrelierten Prädiktoren befassen, bei denen die Standardregression normalerweise zu große Regressionskoeffizienten aufweist.
https://web.stanford.edu/~hastie/ElemStatLearn/ (kostenloser Download) enthält eine gute Beschreibung des LASSO und der zugehörigen Methoden.
Die LASSO-Regression ist eine Art von Regressionsanalyse, bei der sowohl die Variablenauswahl als auch die Regulierung gleichzeitig erfolgen. Diese Methode verwendet eine Strafe, die den Wert der Regressionskoeffizienten beeinflusst. Mit zunehmender Strafe werden mehr Koeffizienten zu Null und umgekehrt. Es wird die L1-Normalisierungstechnik verwendet, bei der der Abstimmungsparameter als Schrumpfungsbetrag verwendet wird. Wenn der Abstimmungsparameter zunimmt, nimmt die Vorspannung zu, und wenn sie abnimmt, nimmt die Varianz zu. Wenn es konstant ist, sind keine Koeffizienten Null, und wenn es gegen unendlich geht, sind alle Koeffizienten Null.
Bei der "normalen" Regression (OLS) besteht das Ziel darin, die Restsumme der Quadrate (RSS) zu minimieren, um die Koeffizienten zu schätzen
Im Falle einer LASSO-Regression schätzen Sie die Koeffizienten mit einem etwas anderen Ansatz:
Je mehr Strafe auf die Koeffizienten angewendet wird und je kleiner die Koeffizienten sind, desto größer kann die Wahrscheinlichkeit sein, dass einige Null werden. Dies bedeutet, dass LASSO bei der Funktionsauswahl zu sparsamen Modellen führen kann und eine Überanpassung des Modells verhindert. Allerdings können Sie LASSO verwenden, wenn Sie viele Funktionen haben und Ihr Ziel eher darin besteht, Daten vorherzusagen, als die Koeffizienten Ihres Modells zu interpretieren.