Unter welchen Bedingungen übertreffen Gradientenverstärkungsmaschinen zufällige Wälder?

Kann Friedmans Steigungsverstärkungsmaschine eine bessere Leistung erzielen als Breimans Random Forest ? Wenn ja, unter welchen Bedingungen oder mit welchen Daten kann gbm verbessert werden?

— user22062
quelle

Es gibt keine Möglichkeit, es von vornherein zu sagen. du musst es ausprobieren.

— Bayerj

Nun, in der Praxis ist Boosting fast immer besser als RF ... Obwohl ich nicht genau weiß, warum, bin ich persönlich auf keinen Fall gestoßen, in dem RF besser als Boosting war.

— Antoine

@Antoine Learning mit unbeschrifteten Daten und / oder Beschriftungsrauschen ist ein besonders schrecklicher Anwendungsfall für das Boosten.

— Marc Claesen

Nun, RF und Boosting werden hauptsächlich für überwachte Lernaufgaben verwendet, auch wenn es manchmal wahr ist, dass RF für Clustering verwendet werden kann. Adaboost ist aufgrund der exponentiellen Verlustfunktion, die stark vom Rauschen beeinflusst wird, nicht sehr robust gegenüber Fehlbezeichnungen, aber die stochastische Gradientenanhebung im allgemeinen Fall (zum Beispiel mit multinomialer Abweichung) ist robuster.

— Antoine

@MarcClaesen könntest du dir diese Frage bitte ansehen ?

— Antoine

Antworten:

Im Folgenden wird erläutert, warum Boosting Random Forest in der Praxis im Allgemeinen übertrifft. Ich wäre jedoch sehr gespannt, welche anderen Faktoren Boostings Vorteil gegenüber RF in bestimmten Einstellungen erklären können.

Grundsätzlich kann RF im Rahmen von Fehler nur durch Reduzierung der Varianz reduzieren ( Hastie et al. 2009, S. 588). Die Verzerrung ist fest und entspricht der Verzerrung eines einzelnen Baums im Wald (daher die Notwendigkeit, sehr große Bäume zu züchten, die eine sehr geringe Verzerrung aufweisen). $error=bias+variance$

Auf der anderen Seite reduziert Boosting die Verzerrung (indem jeder neue Baum in der Sequenz hinzugefügt wird, sodass das erfasst wird, was vom vorhergehenden Baum übersehen wurde), aber auch die Varianz (indem viele Modelle kombiniert werden).

Boosting reduziert also Fehler an beiden Fronten, während RF Fehler nur durch Reduzieren der Varianz reduzieren kann. Natürlich kann es, wie gesagt, andere Erklärungen für die bessere Leistung von Boosting geben, die in der Praxis beobachtet werden. Zum Beispiel wird auf Seite 591 des oben genannten Buches gesagt, dass Boosting das RF-Problem bei verschachtelten Kugeln übertrifft, da in diesem speziellen Fall die wahre Entscheidungsgrenze additiv ist . (?) Sie berichten auch, dass Boosting die Spam- und kalifornischen Housing-Daten besser unterstützt als RF.

Caruana und Niculescu-Mizil 2006 sind eine weitere Referenz, die zu einer Outperformance von RF geführt hat . Leider melden sie die Ergebnisse, versuchen aber nicht zu erklären, was sie verursacht. Sie verglichen die beiden Klassifikatoren (und viele mehr) auf 11 binäre Klassifizierungsprobleme für 8 verschiedene Leistungsmetriken.

— Antoine
quelle

Wie bayerj es sagte, gibt es keine Möglichkeit, a priori zu wissen!

Random Forests sind relativ einfach zu kalibrieren: Standardparameter der meisten Implementierungen (z. B. R oder Python) erzielen hervorragende Ergebnisse.

Andererseits sind GBMs schwer abzustimmen (eine zu große Anzahl von Bäumen führt zu Überanpassung, die maximale Tiefe ist entscheidend, die Lernrate und die Anzahl der Bäume wirken zusammen ...) und länger zu trainieren (Multithread-Implementierungen sind rar). . Eine lose Abstimmung kann zu einer geringen Leistung führen.

Wenn Sie jedoch meiner Erfahrung nach genügend Zeit mit GBMs verbringen, erzielen Sie wahrscheinlich eine bessere Leistung als eine zufällige Gesamtstruktur.

$m$

— RUser4512
quelle

A loosely performed tuning may lead to dramatic performance?Vorsicht vor Fehlinterpretationen, denn Englisch dramaticbedeutet sehr gut, außergewöhnlich, phänomenal usw.! Ich denke, das ist das Gegenteil von dem, was Sie sagen wollten ... Haben Sie darüber hinaus eine Erklärung, warum sorgfältig abgestimmte GBMs die HF übertreffen? Dies ist im Grunde die Frage ...

— Antoine