ob Indikator / Binär / Dummy-Prädiktoren für LASSO neu skaliert werden sollen


30

Für das LASSO (und andere Modellauswahlverfahren) ist es entscheidend, die Prädiktoren neu zu skalieren. Die allgemeine Empfehlung, der ich folge, ist einfach, eine Normierung mit 0 Mittelwerten und 1 Standardabweichung für kontinuierliche Variablen zu verwenden. Aber was gibt es mit Dummies zu tun?

ZB einige angewandte Beispiele aus derselben (ausgezeichneten) Sommerschule, die ich verlinkt habe, skalieren stetige Variablen neu auf 0 bis 1 (allerdings nicht großartig bei Ausreißern), wahrscheinlich um mit den Dummies vergleichbar zu sein. Aber auch das garantiert nicht, dass die Koeffizienten in der gleichen Größenordnung liegen sollten, und bestraft damit in ähnlicher Weise den Hauptgrund für eine Neuskalierung, oder?


2
Kurze Antwort - Nein, Dummies nicht neu skalieren
Affine

4
Mit Bezug zu diesem
julieth

@julieth, vielen Dank, lass es mich wissen, wenn du seitdem einige Antworten gefunden hast.
László,

Antworten:


27

Laut Tibshirani ( DIE LASSO-METHODE ZUR VARIABLEN AUSWAHL IM COX-MODELL, Statistics in Medicine, Bd. 16, S. 385-395 (1997) ), der das Buch über Regularisierungsmethoden buchstäblich verfasst hat, sollten Sie die Dummies standardisieren. Sie verlieren dann jedoch die einfache Interpretierbarkeit Ihrer Koeffizienten. Wenn Sie dies nicht tun, befinden sich Ihre Variablen nicht auf einem ausgeglichenen Spielfeld. Sie geben im Wesentlichen den Ausschlag für Ihre stetigen Variablen (höchstwahrscheinlich). Wenn Ihr primäres Ziel also die Modellauswahl ist, ist dies ein ungeheurer Fehler. Wenn Sie sich jedoch mehr für Dolmetschen interessieren, ist dies möglicherweise nicht die beste Idee.

Die Empfehlung finden Sie auf Seite 394:

Die Lasso-Methode erfordert eine anfängliche Standardisierung der Regressoren, damit das Strafschema allen Regressoren gerecht wird. Für kategoriale Regressoren codiert man den Regressor mit Dummy-Variablen und standardisiert dann die Dummy-Variablen. Wie ein Schiedsrichter jedoch betont, kann die relative Skalierung zwischen kontinuierlichen und kategorialen Variablen in diesem Schema etwas willkürlich sein.


3
Können Sie einen genauen Hinweis geben, wo Tibshirani die Standardisierung der Dummies vorschlägt?
Seanv507

@ seanv507 "... man codiert die Regressoren mit Dummy-Variablen und standardisiert dann die Dummy-Variablen ". Ich halte die Erklärung der Rokraten für richtig: Im Allgemeinen möchten Sie, dass alle Prädiktoren, einschließlich Dummies, dieselbe Skala und Varianz haben, damit die Bestrafung gerecht wird.
Robert Kubrick

1
@ RobertKubrick Ich bin anderer Meinung. Der Grund für die Regularisierung ist, dass kleine Änderungen kleine Auswirkungen haben sollten. Der Idealfall ist also, dass alle Ihre Variablen eine natürliche physikalische Skalierung für Ihre abhängige Variable haben und Sie sie nicht normalisieren. Normalerweise kennen wir nicht den richtigen Maßstab, daher greifen wir auf die Normalisierung zurück. Kategoriale Variablen haben jedoch eine so natürliche Skala, nämlich die Wahrscheinlichkeit, dass sie 0 oder 1 sind: Ich würde argumentieren, dass eine Variable, die die meiste Zeit 0 ist, weniger wichtig ist als eine Variable, die zwischen 0/1 wechselt. Stattdessen scheint Jeffs Antwort angemessen zu sein.
Seanv507

8

Sehenswert ist auch der Blog-Beitrag von Andrew Gelman, wann man Regressionseingaben standardisieren und wann man sie in Ruhe lässt. Dieser Teil ist insbesondere relevant:

Zum Vergleichen von Koeffizienten für verschiedene Prädiktoren innerhalb eines Modells erhält die Standardisierung das Nicken. (Obwohl ich binäre Eingaben nicht standardisiere. Ich codiere sie als 0/1 und standardisiere dann alle anderen numerischen Eingaben, indem ich durch zwei Standardabweichungen dividiere, wodurch sie ungefähr auf der gleichen Skala liegen wie 0/1-Variablen.)


1
Und wenn er sagt "Binäreingänge nicht standardisieren" , scheint er eine einzige Gruppe von Variablen zu meinen, dh Dummies für kategoriale Variablen?
smci

2
p(1p)p=0.50.25

x -> x / 2σ

egal, alles scheint hier erklärt zu sein: stat.columbia.edu/~gelman/research/unpublished/…
Alex

3

Dies ist eher ein Kommentar, aber zu lang. Eine der am häufigsten verwendeten Software für Lasso (und Freunde) ist R's glmnet. Auf der Hilfeseite gedruckt von ?glmnet:

standardize: Logisches Flag für die Standardisierung von x-Variablen vor dem Anpassen der Modellsequenz. Die Koeffizienten werden immer auf der ursprünglichen Skala zurückgegeben. Standard ist 'standardize = TRUE'. Wenn sich die Variablen bereits in denselben Einheiten befinden, möchten Sie möglicherweise nicht standardisieren. Einzelheiten zur Standardisierung mit 'family = "gaussian"' finden Sie weiter unten.

X

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.