Ich habe einen Datensatz von rund 5000 Funktionen. Für diese Daten habe ich zuerst den Chi-Quadrat-Test zur Merkmalsauswahl verwendet. Danach erhielt ich ungefähr 1500 Variablen, die eine signifikante Beziehung zur Antwortvariablen zeigten.
Jetzt muss ich die logistische Regression darauf abstimmen. Ich verwende das glmulti-Paket für R (das glmulti-Paket bietet eine effiziente Auswahl von Teilmengen für vlm), kann jedoch nur 30 Funktionen gleichzeitig verwenden. Andernfalls nimmt die Leistung ab, da die Anzahl der Zeilen in meinem Datensatz etwa 20000 beträgt.
Gibt es einen anderen Ansatz oder andere Techniken, um die oben genannten Probleme zu lösen? Wenn ich die oben beschriebene Methode verwende, dauert es zu lange, bis das Modell passt.
sklearn
's LogisticRegression
und es löst ein Problem mit 4000 Funktionen und 20.000 Zeilen in ungefähr einer Minute auf meinem Laptop.