Wann sind Regularisierungsmethoden für die Regression anzuwenden?

83

Unter welchen Umständen sollte man die Verwendung von Regularisierungsmethoden (Ridge, Lasso oder Least Angles Regression) anstelle von OLS in Betracht ziehen?

Falls dies hilft, die Diskussion zu steuern, ist mein Hauptinteresse die Verbesserung der Vorhersagegenauigkeit.

— NPE
quelle

75

Kurze Antwort: Wann immer Sie mit einer dieser Situationen konfrontiert sind:

große Anzahl von Variablen oder niedriges Verhältnis von Nr. Beobachtungen zu Nr. Variablen (einschließlich des Falls $n\ll p$ ),
hohe Kollinearität,
Suchen nach einer spärlichen Lösung (dh Einbetten der Merkmalsauswahl beim Schätzen von Modellparametern) oder
Berücksichtigung der Gruppierung von Variablen in hochdimensionalen Datensätzen.

Die Ridge-Regression liefert im Allgemeinen bessere Vorhersagen als die OLS-Lösung, da ein besserer Kompromiss zwischen Verzerrung und Varianz erzielt wird. Der Hauptnachteil besteht darin, dass alle Prädiktoren im Modell beibehalten werden. Daher ist es nicht sehr interessant, wenn Sie ein sparsames Modell suchen oder eine Art Feature-Auswahl anwenden möchten.

Zur Erzielung von Sparsity ist das Lasso angemessener, führt jedoch bei hoher Kollinearität nicht unbedingt zu guten Ergebnissen. Das zweite Problem bei der L1-Strafe besteht darin, dass die Lasso-Lösung nicht eindeutig bestimmt wird, wenn die Anzahl der Variablen größer als die Anzahl der Probanden ist (dies ist nicht der Fall bei der Gratregression). Der letzte Nachteil von Lasso ist, dass es dazu neigt, nur eine Variable aus einer Gruppe von Prädiktoren mit hohen paarweisen Korrelationen auszuwählen. In diesem Fall gibt es alternative Lösungen wie die Gruppe (dh Schrumpfung auf Block von Kovariaten erzielen, dh einige Blöcke von Regressionskoeffizienten sind genau Null) oder fusioniertLasso. Das grafische Lasso bietet auch vielversprechende Funktionen für GGMs (siehe das R glasso- Paket).

$m>p$ $n\ll p$ $\beta$

L (λ_{1}, λ_{2}, β) = ‖ Y. - X β ‖^{2} + λ_{2} ‖ β ‖^{2} + λ_{1} ‖ β ‖_{1}

$L(\lambda_1,\lambda_2,\mathbf{\beta}) = \|Y-X\beta\|^2 + \lambda_2\|\beta\|^2 + \lambda_1\|\beta\|_1$

wobei und. $\|\beta\|^2=\sum_{j=1}^p\beta_j^2$ $\|\beta\|^1=\sum_{j=1}^p|\beta_j |$

Das Lasso kann mit einem Algorithmus berechnet werden, der auf dem Koordinatenabstieg basiert, wie in dem kürzlich erschienenen Aufsatz von Friedman und Mitarbeitern, Regularisierungspfade für verallgemeinerte lineare Modelle über Koordinatenabstieg (JSS, 2010) oder dem LARS-Algorithmus beschrieben. In R, die bestraft , Lars oder biglars und glmnet Pakete Pakete sind nützlich; In Python gibt es das Toolkit scikit.learn mit einer umfassenden Dokumentation zu den Algorithmen, mit denen alle drei Arten von Regularisierungsschemata angewendet werden.

Was allgemeine Referenzen angeht, enthält die Lasso-Seite das meiste, was für den Einstieg in die Lasso-Regression und technische Details zur L1-Strafe erforderlich ist. Diese verwandte Frage enthält wichtige Referenzen. Wann sollte ich Lasso vs Ridge verwenden?

— chl
quelle

1

Was ist, wenn ich viele Beobachtungen mit relativ wenigen Variablen, aber einem sehr niedrigen Signal-Rausch-Verhältnis mache? Tatsächlich ist die Überanpassung so gering, dass sie ein sehr reales Problem darstellt. Wäre Regularisierung eine sinnvolle Sache, um die Vorhersagegenauigkeit zu verbessern?

— NPE

1

@aix Es hängt davon ab, was Sie tatsächlich als wenige Variablen bezeichnen und mit welchen Variablen Sie es zu tun haben. Aber ich denke, ein First-Ansatz ist in Ihrem Fall vorzuziehen. Sie können sich auch Boosting Ridge Regression (Tutz & Binder, 2005) ansehen . Die bestrafte ML-Schätzung wurde ebenfalls als integrierte Methode vorgeschlagen, um eine Überanpassung zu verhindern. Siehe z. B. Penalized Maximum Likelihood Estimation zur Vorhersage binärer Ergebnisse: Moons KG, Donders AR, Steyerberg EW, Harrell FE. J. Clin. Epidemiol. 2004, 57 (12): 1262–70.

— Chl

20

Eine theoretische Begründung für die Verwendung der Kammregression ist, dass ihre Lösung das posteriore Mittel ist, wenn ein Normalwert vor den Koeffizienten angegeben wird. Das heißt, wenn Sie sich für quadratische Fehler interessieren und an einen normalen Prior glauben, sind die Kantenschätzungen optimal.

In ähnlicher Weise ist die Lasso-Schätzung der hintere Modus unter einem doppelten Exponentialwert vor Ihren Koeffizienten. Dies ist bei einer Null-Eins-Verlustfunktion optimal.

In der Praxis verbessern diese Techniken normalerweise die Vorhersagegenauigkeit in Situationen, in denen Sie viele korrelierte Variablen und nicht viele Daten haben. Während der OLS-Schätzer am besten linear unverzerrt ist, weist er in diesen Situationen eine hohe Varianz auf. Wenn Sie sich den Kompromiss zwischen Bias und Varianz ansehen, verbessert sich die Vorhersagegenauigkeit, da die geringe Zunahme des Bias durch die starke Verringerung der Varianz mehr als ausgeglichen wird.

— Ncray
quelle