Ich habe einen Datensatz mit ungefähr 2.000 binären Variablen / 200.000 Zeilen und versuche, eine einzelne binär abhängige Variable vorherzusagen. Mein Hauptziel in dieser Phase ist nicht die Genauigkeit der Vorhersage, sondern die Identifizierung, welche dieser Variablen wichtige Prädiktoren sind. Ich möchte die Anzahl der Variablen in meinem endgültigen Modell auf ungefähr 100 reduzieren.
Gibt es einen relativ schnellen Weg, um die wichtigsten Variablen zu erhalten? randomForest scheint lange zu dauern.
Ich muss nicht alle 200.000 Beobachtungen verwenden, daher ist eine Stichprobe eine Option auf dem Tisch.