Normalerweise arbeite ich mehr auf der Seite der Effektschätzung / kausalen Inferenz von Dingen, wo die Leute mit der Mehrfachzuschreibung für fehlende Daten ziemlich vertraut sind, aber im Moment arbeite ich an einem Projekt, das mehr auf der Seite des maschinellen Lernens liegt.
Wir erwarten, dass einige Daten fehlen, da es sich um medizinische Daten aus der realen Welt handelt, was ausnahmslos der Fall ist.
Die Neigung einiger Mitarbeiter besteht darin, die vollständige Falltypanalyse durchzuführen, bei der nur Probanden mit vollständigen Daten verwendet werden. Dies macht mich jedoch etwas nervös, da ich der Meinung bin, dass diese fehlenden Datenmuster Auswirkungen haben könnten.
Ist die "Best Practice" für maschinelle Lernaufgaben eine Form der Imputation? Wenn ja, sollte dies vor der Funktionsauswahl erfolgen?