Ich spiele mit einem randomForest und habe festgestellt, dass das Erhöhen von sampSize im Allgemeinen zu einer besseren Leistung führt. Gibt es eine Regel / Formel / etc, die vorschlägt, wie die optimale Größe von sampSize sein soll, oder handelt es sich um eine Versuchs- und Irrtumssache? Ich denke, eine andere Art, es zu formulieren; Was sind meine Risiken, zu klein oder zu groß zu sein (Überanpassung?)?
Diese Frage bezieht sich auf die R-Implementierung einer zufälligen Gesamtstruktur im randomForest
Paket. Die Funktion randomForest
hat einen Parameter, sampSize
der in der Dokumentation als beschrieben ist
Größe (n) der zu zeichnenden Probe. Wenn für die Klassifizierung Sampsize ein Vektor der Länge der Anzahl der Schichten ist, wird die Abtastung nach Schichten geschichtet, und die Sampsize-Elemente geben die aus den Schichten zu ziehenden Zahlen an.