Erklärung von min_child_weight im xgboost-Algorithmus

Die Definition des Parameters min_child_weight in xgboost lautet wie folgt:

Mindestinstanzgewicht (hessisch), das ein Kind benötigt. Wenn der Baumpartitionsschritt zu einem Blattknoten führt, dessen Instanzgewicht kleiner als min_child_weight ist, gibt der Erstellungsprozess die weitere Partitionierung auf. Im linearen Regressionsmodus entspricht dies einfach der minimalen Anzahl von Instanzen, die in jedem Knoten vorhanden sein müssen. Je größer, desto konservativer wird der Algorithmus.

Ich habe einige Dinge auf xgboost gelesen, einschließlich des Originalpapiers (siehe Formel 8 und das nach Gleichung 9), dieser Frage und den meisten Dingen, die mit xgboost zu tun haben und die auf den ersten Seiten einer Google-Suche erscheinen. ;)

Grundsätzlich bin ich immer noch nicht glücklich darüber, warum wir der Summe der Hessischen eine Beschränkung auferlegen. Mein einziger momentaner Gedanke aus dem Originalpapier ist, dass er sich auf den gewichteten Quantilskizzenabschnitt (und die Neuformulierung gemäß Gleichung 3, gewichteter quadratischer Verlust) bezieht, der $h_i$ als 'Gewicht' jeder Instanz hat.

Eine weitere Frage bezieht sich darauf, warum es einfach die Anzahl der Instanzen im linearen Regressionsmodus ist. Ich vermute, das hängt mit der zweiten Ableitung der Quadratsummengleichung zusammen.

machine-learning xgboost hessian

— maw501
quelle

Bei einer Regression ist der Verlust jedes Punktes in einem Knoten

$\frac{1}{2}(y_i - \hat{y_i})^2$

$\hat{y_i}$ $1$

Bei einer binären logistischen Regression enthält der Hessische Wert für jeden Punkt in einem Knoten Begriffe wie

$\sigma(\hat{y_i})(1 - \sigma(\hat{y_i}))$

$\sigma$ $\hat{y_i}$ $\sigma(\hat{y_i})$

Das Hessische ist eine vernünftige Sache, um die Baumtiefe zu regulieren und zu begrenzen. Bei der Regression ist es leicht zu erkennen, wie stark Sie sich anpassen können, wenn Sie sich immer auf Knoten mit beispielsweise nur einer Beobachtung aufteilen. In ähnlicher Weise ist es für die Klassifizierung leicht zu erkennen, wie stark Sie sich anpassen können, wenn Sie auf einer Aufteilung bestehen, bis jeder Knoten rein ist.

— hahdawg
quelle

Vielen Dank für die Antwort, ich kann Sie aufgrund des schlechten Rufs nicht unterstützen.

— maw501

Hi @ maw501: Keine Probleme, ich kann. Gute Antwort, Hahdawg!

— Catbuilts

Also, was ist Ihr vorgeschlagener Bereich für das min_child_weight bei stark unausgeglichenen Daten?

— Mahdi Baghbanzadeh

Sollte min_child_weight in einem unausgeglichenen Datensatz auch Gewichte enthalten? Vielen Dank! @hahdawg

— HanaKaze