Ich versuche, ein Vorhersagemodell mit hochdimensionalen klinischen Daten einschließlich Laborwerten zu entwickeln. Der Datenraum ist mit 5k Samples und 200 Variablen spärlich. Die Idee ist, die Variablen mithilfe einer Feature-Auswahlmethode (IG, RF usw.) zu klassifizieren und hochrangige Features für die Entwicklung eines Vorhersagemodells zu verwenden.
Während die Featureauswahl mit einem Naive Bayes-Ansatz gut funktioniert, stoße ich jetzt auf ein Problem bei der Implementierung eines Vorhersagemodells, da Daten (NA) in meinem variablen Raum fehlen. Gibt es einen Algorithmus für maschinelles Lernen, der mit Stichproben mit fehlenden Daten sorgfältig umgehen kann?