Kann ich viele Bäume mit Gradientenverstärkung mithilfe der Absacktechnik kombinieren?

Basierend auf Gradient Boosting Tree vs Random Forest . GBDT und RF verwenden unterschiedliche Strategien, um Verzerrung und Varianz zu bekämpfen.

Meine Frage ist, ob ich einen Datensatz (mit Ersatz) erneut abtasten kann, um mehrere GBDT zu trainieren und ihre Vorhersagen als Endergebnis zu kombinieren.

Es ist gleichbedeutend damit, eine zufällige Gesamtstruktur mit GBDT als Basislerner zu erstellen

Die Idee ist, dass GBDT den Datensatz überanpassen kann (ähnlich wie ein vollständig wachsender Entscheidungsbaum, niedrige Abweichung, hohe Varianz). Ich hoffe, dass die Verwendung der Absacktechnik auch dieses Problem verringern kann und eine bessere Leistung erzielen möchte.

Irgendein Vorschlag?

— MC LIN
quelle

Sicher kannst du das, aber ich würde vermuten, dass du es bei gleicher Anstrengung besser machen würdest, wenn du nur mit einer geringeren Lernrate rennst.

— Matthew Drury

Ja, du kannst. Das Absacken als Technik beruht nicht darauf, dass ein einzelner Klassifizierungs- oder Regressionsbaum der Grundschüler ist. Sie können es mit allem tun, obwohl viele Basislerner (z. B. lineare Regression) von geringerem Wert sind als andere. Der Bootstrap-Aggregationsartikel auf Wikipedia enthält ein Beispiel für das Absacken von LOESS-Glättern in Ozondaten.

In diesem Fall möchten Sie jedoch mit ziemlicher Sicherheit nicht dieselben Parameter wie bei einem vollständig abgestimmten Einzel-GBM verwenden. Ein großer Teil des Optimierungspunkts eines GBM besteht darin, eine Überanpassung zu verhindern. Durch das Absacken wird die Überanpassung durch einen anderen Mechanismus reduziert. Wenn Ihr abgestimmtes GBM also nicht viel überpasst, hilft das Absacken wahrscheinlich auch nicht viel - und da Sie wahrscheinlich Hunderte von Bäumen benötigen, um effektiv einzusacken, steigt Ihre Laufzeit ein Faktor von mehreren hundert. Jetzt haben Sie zwei Probleme - wie Sie Ihr GBM optimieren, wenn es in eine zufällige Gesamtstruktur eingebettet ist (obwohl es wahrscheinlich nicht so wichtig ist, es richtig zu machen, da es in eine zufällige Gesamtstruktur eingebettet ist) und das Laufzeitproblem.

Nachdem ich das alles geschrieben habe, ist es wahr, dass das Denken vom Typ Absacken gewinnbringend in GBM integriert werden kann, wenn auch auf andere Weise. H20 bietet beispielsweise die Möglichkeit, jeden Baum der GBM-Baumsequenz anhand einer Zufallsstichprobe der Trainingsdaten entwickeln zu lassen. Diese Probe wird ohne Ersatz durchgeführt, da angenommen wird, dass die Probenahme mit Ersatz dazu führt, dass der resultierende Baum die Teile der Probe überpasst, die wiederholt wurden. Dieser Ansatz wurde ausdrücklich durch Breimans "Adaptive Bagging" -Verfahren motiviert, siehe Friedmans Stochastic Gradient Boosting Paper von 1999 für Details.

— Jbowman
quelle