Warum sind meine zufälligen Waldergebnisse so variabel?

Ich versuche, die Fähigkeit von Random Forest zu testen, Stichproben zwischen zwei Gruppen zu klassifizieren. Es gibt 54 Stichproben und eine unterschiedliche Anzahl von Variablen, die zur Klassifizierung verwendet werden.

Ich habe mich gefragt, warum die Out-of-Bag-Schätzungen (OOB) bis zu 5% voneinander abweichen können, selbst wenn ich 50.000 Bäume verwende. Ist dies etwas, bei dem Bootstrapping helfen könnte?

machine-learning random-forest

— Sethzard
quelle

Sie haben zu wenige Proben. 50.000 Bäume machen bei so wenigen Proben keinen Sinn. Bei der Variation handelt es sich höchstwahrscheinlich nur um eine Stichprobe, die zwischen den Läufen falsch klassifiziert wurde.

— Dies ist der

@ThiS Ich dachte, dass eine Erhöhung der Anzahl der Bäume die Varianz verringern würde, die ich bekomme. Gibt es eine Möglichkeit, es effektiv auf Null zu reduzieren oder zu wissen, welches das genaueste ist?

— Sethzard

Es gibt zwei Quellen für die OOB-Varianz. Eines ist die Zufälligkeit des Verfahrens selbst; Dies kann durch Erhöhen der Anzahl der Bäume verringert werden.

Die andere Quelle der Varianz ist die irreduzible Unvollkommenheit, begrenzte Daten zu haben und in einer komplexen Welt zu leben. Das Erhöhen der Anzahl der Bäume kann dies nicht beheben.

Außerdem gibt es manchmal einfach nicht genügend Daten, um das Problem zu lösen. Stellen Sie sich zum Beispiel vor, zwei Instanzen haben die entgegengesetzten Bezeichnungen, aber identische Merkmalswerte. Eine dieser Stichproben wird immer falsch klassifiziert. (Dies ist ein extremes Beispiel, zeigt jedoch, wie einige Probleme nicht behoben werden können. Wir können es etwas lockern, indem wir eine winzige Störung eines Vektors berücksichtigen. Jetzt wird es normalerweise genauso klassifiziert wie sein Zwilling, aber nicht immer.) Um dieses Problem zu lösen Sie müssten zusätzliche Messungen sammeln, um die beiden Punkte weiter zu unterscheiden.

$p(y=1|x)$ $\bar{x}$ $\bar{x}$ $\bar{x}\sim\mathcal{N}(\mu,\frac{\sigma^2}{n})$ $\mu$ $\sigma^2$ $\bar{x}$ $\sigma^2=0$

Irreduzible Varianz kann nicht durch Bootstrapping behoben werden. Darüber hinaus sind zufällige Wälder bereits gebootet. Dies ist Teil des Grundes dafür, dass der Name "zufällig" enthält. (Der andere Grund ist, dass bei jeder Aufteilung eine zufällige Teilmenge von Merkmalen ausgewählt wird.)

— Sycorax sagt Reinstate Monica
quelle