Ich habe einen Informatik-Hintergrund, versuche mich aber Datenwissenschaft beizubringen, indem ich Probleme im Internet löse.
Ich habe in den letzten Wochen an diesem Problem gearbeitet (ca. 900 Zeilen und 10 Features). Anfangs habe ich die logistische Regression verwendet, jetzt bin ich zu zufälligen Wäldern gewechselt. Wenn ich mein Zufallswaldmodell mit meinen Trainingsdaten durchführe, erhalte ich wirklich hohe Werte für auc (> 99%). Wenn ich jedoch das gleiche Modell mit den Testdaten verwende, sind die Ergebnisse nicht so gut (Genauigkeit von ca. 77%). Dies lässt mich glauben, dass ich die Trainingsdaten überanpassung habe.
Was sind die bewährten Methoden zur Verhinderung einer Überanpassung in zufälligen Wäldern?
Ich benutze r und rstudio als meine Entwicklungsumgebung. Ich benutze das randomForest
Paket und habe die Standardeinstellungen für alle Parameter übernommen