Random Forest kann nicht überpassen?

Ich habe Literatur gelesen, die zufällige Wälder nicht überpassen können. Das klingt zwar großartig, scheint aber zu schön, um wahr zu sein. Ist es möglich, dass HF's überanpassen?

random-forest overfitting

— screechOwl
quelle

Wenn es passt, kann es überpassen. Denken Sie in Bezug auf RF darüber nach, was passiert, wenn Ihr Wald nicht genügend Bäume enthält (sagen wir, Ihr Wald ist ein einzelner Baum, um den Effekt offensichtlich zu machen). Es gibt mehr Probleme als dieses, aber dies ist das offensichtlichste.

— Marc Claesen

Ich habe gerade auf einen anderen RF-Thread geantwortet, der leicht überanpassen könnte, wenn die Anzahl der Prädiktoren groß ist.

— HoraceT

Zufälliger Wald kann überpassen. Da bin ich mir sicher. Was normalerweise gemeint ist, ist, dass das Modell nicht überpasst, wenn Sie mehr Bäume verwenden.

Versuchen Sie beispielsweise, das Modell mit einer zufälligen Gesamtstruktur zu schätzen . Sie erhalten einen Trainingsfehler von fast Null, aber einen schlechten Vorhersagefehler $y = log(x) + \epsilon$

— Donbeo
quelle

Random Forest reduziert hauptsächlich die Varianz. Wie kann es zu einer Überanpassung kommen? @ Donbeo könnte es vielleicht sein, weil Entscheidungsbaummodelle bei der Extrapolation nicht gut funktionieren. Angenommen, für eine anomale Prädiktorvariable könnte DT eine schlechte Vorhersage liefern.

— Itachi

Ein klarer Hinweis auf eine Überanpassung ist, dass die Restvarianz zu stark reduziert wird. Was versuchen Sie dann mit Ihrer ersten Bemerkung zu implizieren?

— whuber

Wenn wir beim Bias-Varianz-Kompromiss versuchen, den Bias zu reduzieren, kompensieren wir die Varianz. Wenn x = 80 y = 100 ergibt, x = 81 jedoch y = -100. Das wäre überpassend . Ist Ovefitting nicht ähnlich wie bei hoher Varianz. @whuber Ich nahm an, dass Ovefitting nur wegen der hohen Varianz ist. Ich verstehe nicht, wie die Reduzierung der Restvarianz zu einer Überanpassung führt. Können Sie mir bitte etwas Papier zum Lesen geben?

— Itachi

Dies erfordert kein Papier! Sie können es selbst versuchen. Nehmen Sie einen kleinen einfachen bivariaten Datensatz wie und jede Sammlung entsprechender Sie erstellen . Passen Sie unter Verwendung der kleinsten Quadrate (da dies darauf abzielt, die Varianz der Residuen zu verringern) die Modellreihe für . Jeder Schritt reduziert die Varianz, bis im letzten Schritt die Varianz Null ist. Irgendwann wird fast jeder zustimmen, dass die Modelle begonnen haben, die Daten zu überpassen.

x_{i} = 1, 2, \dots, 10

$x_i=1,2,\ldots,10$

y_{i}

$y_i$

y = β_{0} + β_{1} x + β_{2} x^{2} + \dots + β_{k} x^{k}

$y=\beta_0+\beta_1 x+\beta_2 x^2 + \cdots + \beta_k x^k$

k = 0, 1, \dots, 9

$k=0, 1, \ldots, 9$

— whuber

@whuber Ich denke, Sie verpassen den Punkt, was "Varianzreduzierung" ist. Random Forest (und Bagging im Allgemeinen) reduzieren nicht die Varianz der Residuen, sondern die Varianz Ihrer Vorhersagen. In Ihrem Beispiel erhöht jeder Schritt, über den Sie sprechen, die Varianz :)

— Davide ND