Ich habe einen Datensatz mit 330 Stichproben und 27 Merkmalen für jede Stichprobe mit einem Binärklassenproblem für die logistische Regression.
Gemäß der "Regel wenn zehn" benötige ich mindestens 10 Ereignisse für jedes Feature, um eingeschlossen zu werden. Ich habe jedoch einen unausgeglichenen Datensatz mit 20% positiver Klasse und 80% negativer Klasse.
Das gibt mir nur 70 Ereignisse, so dass ungefähr nur 7/8 Funktionen in das Logistikmodell aufgenommen werden können.
Ich möchte alle Funktionen als Prädiktoren bewerten, ich möchte keine Funktionen von Hand auswählen.
Was würden Sie vorschlagen? Sollte ich alle möglichen 7 Funktionskombinationen machen? Sollte ich jedes Feature alleine mit einem Assoziationsmodell bewerten und dann nur die besten für ein endgültiges Modell auswählen?
Ich bin auch neugierig auf den Umgang mit kategorialen und kontinuierlichen Features. Kann ich sie mischen? Wenn ich eine kategoriale [0-1] und eine kontinuierliche [0-100] habe, sollte ich normalisieren?
Ich arbeite derzeit mit Python.
Vielen dank für Deine Hilfe!