Meine erste Reaktion auf diese Frage war, dass sie nicht viel Forschungsaufwand zeigte, da "jeder" weiß, dass zufällige Wälder nicht mit fehlenden Werten in Prädiktoren umgehen. Aber bei der Überprüfung ?randomForest
muss ich gestehen, dass dies viel expliziter sein könnte.
(Obwohl Breimans PDF, auf das in der Dokumentation verwiesen wird, ausdrücklich besagt, dass fehlende Werte einfach überhaupt nicht behandelt werden.)
Der einzige offensichtliche Hinweis in der offiziellen Dokumentation, den ich sehen konnte, war, dass der Standardwert für den na.action
Parameter ist na.fail
, der für neue Benutzer möglicherweise zu kryptisch ist.
Wenn Ihre Prädiktoren fehlende Werte haben, haben Sie (im Grunde) zwei Möglichkeiten:
- Verwenden Sie ein anderes Werkzeug (
rpart
behandelt fehlende Werte gut.)
- Unterstellen Sie die fehlenden Werte
Es überrascht nicht, dass das randomForest
Paket eine Funktion hat, um genau dies zu tun rfImpute
. Die Dokumentation unter enthält ?rfImpute
ein grundlegendes Beispiel für die Verwendung.
Wenn nur eine kleine Anzahl von Fällen fehlende Werte aufweist, können Sie auch versuchen na.action = na.omit
, diese Fälle einfach zu löschen.
Und natürlich ist diese Antwort eine Vermutung, dass Ihr Problem wirklich einfach darin besteht, dass Werte fehlen.