In Random Forest wird jeder Baum parallel auf einer eindeutigen Boostrap-Stichprobe der Daten gezüchtet. Da erwartet wird, dass jede Boostrap-Probe ungefähr 63% der eindeutigen Beobachtungen enthält, bleiben ungefähr 37% der Beobachtungen aus, die zum Testen des Baums verwendet werden können.
Nun scheint es bei Stochastic Gradient Boosting auch eine -Schätzung zu geben, die der in RF ähnlich ist:
Wenn bag.fraction auf größer als 0 eingestellt ist (0,5 wird empfohlen), berechnet gbm eine Out-of-Bag-Schätzung der Verbesserung der Vorhersageleistung. Es bewertet die Verringerung der Abweichung von den Beobachtungen, die bei der Auswahl des nächsten Regressionsbaums nicht verwendet wurden.
Quelle: Ridgeway (2007) , Abschnitt 3.3 (Seite 8).
Ich habe Probleme zu verstehen, wie es funktioniert / gültig ist. Angenommen, ich füge der Sequenz einen Baum hinzu. Ich züchte diesen Baum auf einer zufälligen Teilstichprobe des Originaldatensatzes. Ich konnte diesen einzelnen Baum an den Beobachtungen testen, die nicht zum Wachsen verwendet wurden. Einverstanden. ABER da Boosting sequentiell ist, verwende ich eher die gesamte bisher gebaute Baumsequenz, um eine Vorhersage für diese ausgelassenen Beobachtungen zu liefern. Und es besteht eine hohe Wahrscheinlichkeit, dass viele der vorhergehenden Bäume diese Beobachtungen bereits gesehen haben. Das Modell wird also nicht in jeder Runde auf unsichtbare Beobachtungen wie bei RF getestet, oder?
Wie kommt es also, dass dies als "Out-of-Bag" -Fehlerschätzung bezeichnet wird? Für mich scheint es nicht "aus" jeder Tasche zu sein, da die Beobachtungen bereits gesehen wurden?