Ich habe zwei Fragen zur Verwendung einer zufälligen Gesamtstruktur (insbesondere randomForest in R) für die Imputation fehlender Werte (im Prädiktorraum).
1) Wie funktioniert der Imputationsalgorithmus - insbesondere wie und warum wird die Klassenbezeichnung für die Imputation benötigt? Ist die Näherungsmatrix, die dazu dient, den Durchschnittswert zu gewichten, um einen fehlenden Wert zu unterstellen, der separat nach Klassen definiert ist?
2) Wenn die Klassenbezeichnung benötigt wird, um fehlende Werte zu unterstellen - wie kann dies verwendet werden, um fehlende Werte für neue Daten zu unterstellen, die Sie vorhersagen möchten?