Die Definition des Parameters min_child_weight in xgboost lautet wie folgt:
Mindestinstanzgewicht (hessisch), das ein Kind benötigt. Wenn der Baumpartitionsschritt zu einem Blattknoten führt, dessen Instanzgewicht kleiner als min_child_weight ist, gibt der Erstellungsprozess die weitere Partitionierung auf. Im linearen Regressionsmodus entspricht dies einfach der minimalen Anzahl von Instanzen, die in jedem Knoten vorhanden sein müssen. Je größer, desto konservativer wird der Algorithmus.
Ich habe einige Dinge auf xgboost gelesen, einschließlich des Originalpapiers (siehe Formel 8 und das nach Gleichung 9), dieser Frage und den meisten Dingen, die mit xgboost zu tun haben und die auf den ersten Seiten einer Google-Suche erscheinen. ;)
Grundsätzlich bin ich immer noch nicht glücklich darüber, warum wir der Summe der Hessischen eine Beschränkung auferlegen. Mein einziger momentaner Gedanke aus dem Originalpapier ist, dass er sich auf den gewichteten Quantilskizzenabschnitt (und die Neuformulierung gemäß Gleichung 3, gewichteter quadratischer Verlust) bezieht, der als 'Gewicht' jeder Instanz hat.
Eine weitere Frage bezieht sich darauf, warum es einfach die Anzahl der Instanzen im linearen Regressionsmodus ist. Ich vermute, das hängt mit der zweiten Ableitung der Quadratsummengleichung zusammen.