Vor kurzem habe ich mich für das Modellstapeln als eine Form des Ensemble-Lernens interessiert. Insbesondere habe ich ein wenig mit einigen Spielzeugdatensätzen für Regressionsprobleme experimentiert. Grundsätzlich habe ich einzelne "Level 0" -Regressoren implementiert, die Ausgabevorhersagen jedes Regressors als neues Feature für einen "Meta-Regressor" als Eingabe gespeichert und diesen Meta-Regressor an diese neuen Features angepasst (die Vorhersagen aus dem Level) 0 Regressoren). Ich war äußerst überrascht, selbst bescheidene Verbesserungen gegenüber den einzelnen Regressoren zu sehen, als der Meta-Regressor gegen einen Validierungssatz getestet wurde.
Hier ist meine Frage: Warum ist das Stapeln von Modellen effektiv? Intuitiv würde ich erwarten, dass das Modell, das das Stapeln durchführt, eine schlechte Leistung erbringt, da es im Vergleich zu jedem Modell der Stufe 0 eine verarmte Merkmalsdarstellung zu haben scheint. Das heißt, wenn ich 3 Regressoren der Ebene 0 in einem Datensatz mit 20 Merkmalen trainiere und die Vorhersagen dieser Regressoren der Ebene 0 als Eingabe für meinen Meta-Regressor verwende, bedeutet dies, dass mein Meta-Regressor nur 3 Funktionen zum Lernen hat. Es scheint nur, dass in den 20 ursprünglichen Funktionen, die die Regressoren der Stufe 0 für das Training haben, mehr Informationen codiert sind als in den 3 Ausgabefunktionen, die der Meta-Regressor für das Training verwendet.