Klären, was mit α und Elastic Net-Parametern gemeint ist
Unterschiedliche Terminologie und Parameter werden von verschiedenen Paketen verwendet, die Bedeutung ist jedoch im Allgemeinen gleich:
Das R-Paket Glmnet verwendet die folgende Definition
Mindestβ0, β1N∑Ni = 1wichl ( yich, β0+ βTxich) + λ [ ( 1 - α ) | | β| |22/ 2+α | | β| |1]
Sklearn verwendet
Mindestw12 N∑Ni = 1| | y- Xw | |22+ α × l1verhältnis | | w | |1+ 0,5 × α × ( 1 - L1Verhältnis ) × | | w | |22
Es gibt auch alternative Parametrisierungen mit und .einb
Um Verwirrung zu vermeiden, werde ich anrufen
- λ der Strafkraftparameter
- L1Verhältnis das Verhältnis zwischen der Strafe von und zwischen 0 (Kamm) und 1 (Lasso)L1L2
Visualisierung der Auswirkung der Parameter
Stellen Sie sich einen simulierten Datensatz vor, bei dem aus einer verrauschten Sinuskurve besteht und ein zweidimensionales Merkmal ist, das aus und . Aufgrund der Korrelation zwischen und die Kostenfunktion ein enges Tal.yXX1= xX2= x2X1X2
Die folgenden Grafiken veranschaulichen den Lösungsweg der elastischen Netzregression mit zwei verschiedenen Verhältnisparametern als Funktion von dem Stärkeparameter .L1λ
- Für beide Simulationen gilt: Wenn ist die Lösung die OLS-Lösung unten rechts mit der zugehörigen talförmigen Kostenfunktion.λ = 0
- Wenn zunimmt, setzt die Regularisierung ein und die Lösung tendiert zuλ( 0 , 0 )
- Der Hauptunterschied zwischen den beiden Simulationen ist der Verhältnisparameter.L1
- LHS : Für ein kleines Verhältnis die regulierte Kostenfunktion stark der Ridge-Regression mit runden Konturen.L1
- RHS : Für ein großes Verhältnis die Kostenfunktion stark der Lasso-Regression mit den typischen Diamantformkonturen.L1
- Für ein mittleres Verhältnis (nicht gezeigt) ist die Kostenfunktion eine Mischung aus beidenL1
Die Wirkung der Parameter verstehen
Das ElasticNet wurde eingeführt, um einige der Einschränkungen des Lasso zu überwinden:
- Gibt es mehr Variablen als Datenpunkte , , wählt das Lasso höchstens Variablen aus.pnp > nn
- Lasso führt keine Gruppenauswahl durch, insbesondere bei Vorhandensein korrelierter Variablen. Es wird dazu tendieren, eine Variable aus einer Gruppe auszuwählen und die anderen zu ignorieren
Durch die Kombination einer und einer quadratischen Strafe erhalten wir die Vorteile von beiden:L1L2
- L1 erzeugt ein spärliches Modell
- L2 hebt die Beschränkung der Anzahl der ausgewählten Variablen auf, fördert die Gruppierung und stabilisiert den Regularisierungspfad.L1
Sie können dies visuell im obigen Diagramm sehen, die Singularitäten an den Eckpunkten fördern die Sparsamkeit , während die strengen konvexen Kanten die Gruppierung fördern .
Hier ist eine Visualisierung von Hastie (dem Erfinder von ElasticNet)
Weitere Lektüre
caret
Paket ansehen , das einen wiederholten Lebenslauf durchführen und sowohl Alpha als auch Lambda einstellen kann (unterstützt Multicore-Verarbeitung!). Aus dem Gedächtnis denke ich, dass dieglmnet
Dokumentation davon abrät, Alpha so zu optimieren, wie Sie es hier tun. Es wird empfohlen, die Foldiden fest zu halten, wenn der Benutzer zusätzlich zu der von bereitgestellten Lambda-Abstimmung Alpha wähltcv.glmnet
.