Definition der Komplexität eines Baumes in xgboost


9

Als ich über den xgboost-Algorithmus recherchierte, ging ich die Dokumentation durch .

Bei diesem Ansatz werden Bäume unter Verwendung der Komplexitätsdefinition wobei und Parameter sind, die Anzahl von ist Terminalblätter und ist die Punktzahl in jedem Blatt.

Ω(f)=γT+12λj=1Twj2
γλTwj

Ich frage mich: Wie definiert dies Komplexität? , die Anzahl der Endknoten, erscheint mir natürlich. Aber die Summe der Endergebnisse im Quadrat?T

Vielleicht ist Überanpassung gemeint. Bedeutet das, dass sehr große Punktzahlen zu viel Vertrauen geben? Wird es gewählt, um einen schwachen Lernenden zu bekommen? Was ist eine natürliche Erklärung für diese Wahl der Komplexitätsfunktion?

Antworten:


7

Das macht für mich Sinn.

Ich werde mich auf den Gaußschen Fall konzentrieren. Hier wird jeder Baum an die Residuen des aktuellen Modells , und die Modellaktualisierung lautet . Die Idee eines Gradientenverstärkers besteht darin, die Vorspannung des Modells sorgfältig und langsam zu verringern, indem diese Bäume einzeln hinzugefügt werden.TiMi+1=Mi+αTi

In diesem Fall würde ein großer Wert von einem Endknoten (Blattknoten) entsprechen, der eine sehr große und signifikante Aktualisierung des vorherigen Modells ergibt. Die Idee des Regularisierungsterms besteht darin, diese Vorfälle großer Einzelbaumaktualisierungen zu minimieren (nur dann zuzulassen, wenn die Verringerung der Modellverlustfunktion groß genug ist, um die Regularisierungsstrafe auszugleichen). Wenn ein solches Update für einen einzelnen Baum reguliert wird, sich jedoch als gerechtfertigt herausstellt, wird es gemäß der Philosophie des Boostings über mehrere Modellupdates hinweg eingebrannt.wi

Dies ist eine sehr enge Analogie zur Gratregression.


Danke, also denken Sie ähnlich darüber nach wie ich, wenn ich über einen schwachen Lernenden spreche ... Schwach in dem Sinne, wenn Sie nicht zu große Schritte unternehmen.
Ric

Könnten Sie genauer auf den "Gaußschen Fall" eingehen? eine Mischung aus Gaußschen passen?
Haitao Du

@ hxd1011 Ich meine nur, dass wir die Summe der quadratischen Fehlerverluste verwenden, auch bekannt als die Log-Wahrscheinlichkeit der Gaußschen Verteilung. Der Hauptpunkt ist, dass Sie hier davon ausgehen können, dass Sie nur zu den Residuen passen.
Matthew Drury

@MatthewDrury Könnten Sie sich diese verwandte Frage ansehen? Vielen Dank!! stats.stackexchange.com/questions/229599/…
Haitao Du
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.