Nehmen Sie für die Lasso-Regression dass die beste Lösung (zum Beispiel minimaler Testfehler) Merkmale auswählt . so dass .k β l a s s o = ( β l a s s o 1 , β l a s s O 2 , . . . , β l a
Wir wissen, dass ist voreingenommene Schätzung von , also warum nehmen wir immer noch als die endgültige Lösung, anstatt die 'vernünftigere' , wobei ist die LS-Schätzung aus Teilmodell . ( bezeichnet die Spalten von , die den ausgewählten Merkmalen entsprechen).
Kurz gesagt, warum verwenden wir Lasso sowohl für die Merkmalsauswahl als auch für die Parameterschätzung, anstatt nur für die Variablenauswahl (und überlassen die Schätzung der ausgewählten Merkmale OLS)?
(Was bedeutet es auch, dass "Lasso höchstens Merkmale auswählen kann "? ist die Stichprobengröße.)