Beim Erlernen von Gradient Boosting sind mir keine Einschränkungen in Bezug auf die Eigenschaften eines "schwachen Klassifikators" bekannt, mit dem die Methode ein Modell erstellt und zusammensetzt. Ich konnte mir jedoch keine Anwendung eines GB vorstellen, bei der lineare Regression verwendet wird, und tatsächlich funktioniert dies nicht, wenn ich einige Tests durchgeführt habe. Ich habe den Standardansatz mit einem Gradienten der Summe der quadratischen Residuen getestet und die nachfolgenden Modelle addiert.
Das offensichtliche Problem ist, dass die Residuen des ersten Modells so gefüllt sind, dass es wirklich keine passende Regressionslinie mehr gibt. Meine andere Beobachtung ist, dass eine Summe nachfolgender linearer Regressionsmodelle auch als ein einzelnes Regressionsmodell dargestellt werden kann (mit allen Abschnitten und entsprechenden Koeffizienten), so dass ich mir nicht vorstellen kann, wie dies das Modell jemals verbessern könnte. Die letzte Beobachtung ist, dass eine lineare Regression (der typischste Ansatz) die Summe der quadratischen Residuen als Verlustfunktion verwendet - die gleiche, die GB verwendet.
Ich habe auch darüber nachgedacht, die Lernrate zu senken oder nur eine Teilmenge von Prädiktoren für jede Iteration zu verwenden, aber das könnte schließlich immer noch zu einer einzelnen Modelldarstellung zusammengefasst werden, also würde es vermutlich keine Verbesserung bringen.
Was vermisse ich hier? Ist eine lineare Regression in Verbindung mit Gradient Boosting aus irgendeinem Grund unangemessen? Liegt es daran, dass die lineare Regression die Summe der quadratischen Residuen als Verlustfunktion verwendet? Gibt es spezielle Einschränkungen für die schwachen Prädiktoren, damit sie auf das Gradienten-Boosting angewendet werden können?