Verwenden Sie LASSO für die Variablenauswahl und anschließend Logit


10

Ich weiß, dass dies die statistische Schlussfolgerung trüben würde, aber es geht mir wirklich nur darum, einem genauen Modell so nahe wie möglich zu kommen.

Ich habe eine dichotome Ergebnisvariable mit einer großen Anzahl dichotomer Prädiktoren. Ich denke, ich möchte versuchen, mit LASSO auszuwählen, welche Variablen in mein Modell aufgenommen werden sollen, und diese ausgewählten Variablen dann in eine Logit-Regression eingeben.

Gibt es etwas, das ich übersehen habe, wenn es um die Praktikabilität dieses Ansatzes geht?


4
Sie übersehen, dass Sie die L1-Normstrafe von LASSO bei der logistischen Regression genauso wie bei der linearen Regression verwenden können.
Scortchi - Monica wieder einsetzen

1
Und dieser LASSO schrumpft und wählt aus, was Sie rückgängig machen würden.
Scortchi - Monica wieder einsetzen

Also, das ist es, was ich dachte (angesichts des Schrumpfens). Ich verwende das LARS-Paket in STATA. Das Modell, das es ausgibt, gibt keinen Achsenabschnitt ab, kann also nicht schrumpfen, oder?
EvKohl

Der Achsenabschnitt in einem Logit-Modell wird durch das Verhältnis von Positiven zu Negativen festgelegt.
Sycorax sagt Reinstate Monica

2
Sie können Ihren Daten jederzeit eine Spalte mit Einsen hinzufügen, um den Intercept-Term zu schätzen. Es ist jedoch nicht erforderlich, Modelle zu trennen. Verwenden Sie einfach die logistische Regression mit L1-Strafe.
Sven

Antworten:


9

α=1

Weitere Informationen finden Sie hier: http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html#intro


(+1) Auch dafür gibt es zweifellos ein Stata-Paket - Statalist ist der beste Ort, um zu fragen.
Scortchi - Monica wieder einsetzen

Vielen Dank. Ich glaube eigentlich nicht, dass es ein STATA-Paket dafür gibt. Alle Erwähnung, die ich fand, war für R.
EvKohl

3
Wenn stata lasso logisticich nach google, bekomme ich als erstes Ergebnis homepages.ucl.ac.uk/~ucakgam/stata.html .
Scortchi - Monica wieder einsetzen

Kennt jemand ein Paket in Python, das dies auch kann?
RBM

@rbm Ich bin mit Sicherheit zu spät für die Party, aber Sie können logistische Regressoren in scikit-learn regulieren.
Eli Korvigo

2

Erstens gibt es keine Garantie dafür, dass ein lineares Wahrscheinlichkeitsmodell einem Logit-Modell sehr gut nahe kommt. Folglich ist die für eine ausgewählte Teilmenge von Variablen möglicherweise weniger für die andere geeignet.

Zweitens führt die Neuanpassung trotz der im ersten Schritt erfolgten Variablenauswahl überhaupt nicht zu einer Schrumpfung. Risiko einer ernsthaften Fehlkalibrierung und möglicherweise eines kleinen Verlusts an Diskriminierung.

L1

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.