Meine Situation:
- kleine Stichprobengröße: 116
- binäre Ergebnisvariable
- lange Liste erklärender Variablen: 44
- erklärende Variablen kamen nicht von oben; Ihre Wahl basierte auf der Literatur.
- Die meisten Fälle in der Stichprobe und die meisten Variablen haben fehlende Werte.
Ansatz für die ausgewählte Funktionsauswahl: LASSO
Mit dem glmnet-Paket von R kann ich die glmnet-Routine anscheinend nicht ausführen, da in meinem Datensatz fehlende Werte vorhanden sind. Es scheint verschiedene Methoden zum Umgang mit fehlenden Daten zu geben, daher würde ich gerne wissen:
- Zwingt LASSO eine Einschränkung hinsichtlich der Imputationsmethode, die ich verwenden kann?
- Was wäre die beste Wahl für die Imputationsmethode? Idealerweise benötige ich eine Methode, die ich auf SPSS (vorzugsweise) oder R ausführen kann.
UPDATE1: Aus einigen der folgenden Antworten wurde deutlich, dass ich mich mit grundlegenderen Fragen befasst habe, bevor ich über Imputationsmethoden nachgedacht habe. Ich möchte hier neue Fragen dazu hinzufügen. Zu der Antwort, die die Codierung als konstanten Wert und die Erstellung einer neuen Variablen vorschlägt, um mit "nicht zutreffenden" Werten und der Verwendung von Gruppen-Lasso umzugehen:
- Würden Sie sagen, dass ich bei Verwendung der Gruppe LASSO den vorgeschlagenen Ansatz für kontinuierliche Prädiktoren auch für kategoriale Prädiktoren verwenden kann? Wenn ja, gehe ich davon aus, dass dies der Erstellung einer neuen Kategorie gleichkommt - ich bin besorgt, dass dies zu Verzerrungen führen kann.
- Weiß jemand, ob das glmnet-Paket von R die Gruppe LASSO unterstützt? Wenn nicht, würde jemand einen anderen vorschlagen, der dies in Kombination mit logistischer Regression tut? Im CRAN-Repository finden Sie mehrere Optionen, in denen die Gruppe LASSO erwähnt wird. Gibt es Vorschläge, die für meinen Fall am besten geeignet sind? Vielleicht SGL?
Dies ist eine Fortsetzung einer früheren Frage von mir ( Wie wähle ich eine Teilmenge von Variablen aus meiner ursprünglichen langen Liste aus, um eine logistische Regressionsanalyse durchzuführen? ).
OBS: Ich bin kein Statistiker.