Soweit ich gesehen habe, gehen die Meinungen darüber auseinander. Best Practice würde sicherlich die Verwendung von Kreuzvalidierung vorschreiben (insbesondere wenn RFs mit anderen Algorithmen auf demselben Datensatz verglichen werden). Andererseits besagt die ursprüngliche Quelle, dass die Tatsache, dass der OOB-Fehler während des Modelltrainings berechnet wird, als Indikator für die Leistung des Testsatzes ausreicht. Sogar Trevor Hastie sagte kürzlich in einem Gespräch, dass "Random Forests eine kostenlose gegenseitige Validierung ermöglichen". Das ist für mich intuitiv sinnvoll, wenn ich ein RF-basiertes Modell in einem Datensatz trainieren und verbessern möchte.
Kann jemand bitte die Argumente für und gegen die Notwendigkeit einer Kreuzvalidierung mit zufälligen Wäldern darlegen?