Tuning-Parameterbereich für Lasso und Ridge


7

Bei der linearen Regression von Grat und Lasso besteht ein wichtiger Schritt darin, den Abstimmungsparameter Lambda zu wählen. Oft verwende ich die Rastersuche auf der Protokollskala von -6-> 4, sie funktioniert gut auf Grat, aber auf Lasso sollte ich die Reihenfolge berücksichtigen der Größe der Ausgabe y? Wenn die Ausgabe y beispielsweise im Nanomaßstab (-9) liegt, kann mein Suchbereich für log lambda -15 -> -5 sein.

Alle Eingabeparameter sind normalisiert und liegen innerhalb von -3,3

Antworten:


4

Ja, Sie sollten die Skalierung der Ausgabe berücksichtigen und auch die Skalierung der Kovariaten in berücksichtigen .yX

Sei die Entwurfsmatrix, deren Zeilen Vektoren sind, wobei jeder Eintrag eine Kovariate ist, die zusammen versuchen , die Antwort zu erklärenXRn×pyRn. Jeder Eintrag der Antwortyi=f(eiTX)+ϵi (zum i=1,,n) besteht additiv aus einem Signal, das von den Kovariaten abhängt, und einem mittleren Nullrauschen. Auswahl der Modellierung des Signalsf als annähernd linear führt uns zur LASSO-Schätzung

β^λ=argminβ12nyXβ22+λβ1,
Wir wissen durch Bedingungen erster Ordnung, dass , wobei ist die duale Variable, die erfüllt wenn und wenn .1nXT(yXβ^λ)=λz^λz^λz^λ,j=sgn(β^λ,j)β^λ,j0z^λ,j[1,1]β^λ,j=0

Anstecken in diese Gleichung sehen wir , dass , wodurchβ^λ=01nXTy=λz^λ

1nXTy=λz^λ.

Wenn , könnte abnehmen (wobei erhöht wird, um die Gleichheit aufrechtzuerhalten) und der LASSO Schätzung wäre immer noch . Daher erhalten wir bei , dem kleinsten Wert von , der , diesenz^λ1λz^λβ^λ=0λmaxλβ^λ=0

1nXTy=λmax1.

Dies sagt uns, dass es nicht notwendig ist, zu berücksichtigen, wenn der LASSO eingestellt wird. In der Praxis standardisieren die meisten Löser die Spalten von so, dass sie nicht direkt berücksichtigt werden müssen. (Beachten Sie, dass es sinnvoll ist, die Kovariaten zu standardisieren, da die Maßeinheiten den geschätzten Koeffizienten nicht beeinflussen sollten.)λ>λmaxX

Der Gratfall wird hier gut diskutiert: Maximale Strafe für Gratregression


3

Im R-Paket passt glmnetdie Funktion cv.glmnetein Modell an den gesamten Datensatz an, um einen geeigneten Regularisierungspfad auszuwählen, und führt dann eine Kreuzvalidierung unter Verwendung dieses Pfads durch. Dies scheint in der Praxis gut zu funktionieren.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.