Ensemble-Lernen: Warum ist das Stapeln von Modellen effektiv?

Vor kurzem habe ich mich für das Modellstapeln als eine Form des Ensemble-Lernens interessiert. Insbesondere habe ich ein wenig mit einigen Spielzeugdatensätzen für Regressionsprobleme experimentiert. Grundsätzlich habe ich einzelne "Level 0" -Regressoren implementiert, die Ausgabevorhersagen jedes Regressors als neues Feature für einen "Meta-Regressor" als Eingabe gespeichert und diesen Meta-Regressor an diese neuen Features angepasst (die Vorhersagen aus dem Level) 0 Regressoren). Ich war äußerst überrascht, selbst bescheidene Verbesserungen gegenüber den einzelnen Regressoren zu sehen, als der Meta-Regressor gegen einen Validierungssatz getestet wurde.

Hier ist meine Frage: Warum ist das Stapeln von Modellen effektiv? Intuitiv würde ich erwarten, dass das Modell, das das Stapeln durchführt, eine schlechte Leistung erbringt, da es im Vergleich zu jedem Modell der Stufe 0 eine verarmte Merkmalsdarstellung zu haben scheint. Das heißt, wenn ich 3 Regressoren der Ebene 0 in einem Datensatz mit 20 Merkmalen trainiere und die Vorhersagen dieser Regressoren der Ebene 0 als Eingabe für meinen Meta-Regressor verwende, bedeutet dies, dass mein Meta-Regressor nur 3 Funktionen zum Lernen hat. Es scheint nur, dass in den 20 ursprünglichen Funktionen, die die Regressoren der Stufe 0 für das Training haben, mehr Informationen codiert sind als in den 3 Ausgabefunktionen, die der Meta-Regressor für das Training verwendet.

machine-learning ensemble stacking

— kylerthecreator
quelle

Stellen Sie sich Ensemble als eine Ausnutzung des zentralen Grenzwertsatzes vor.

Der zentrale Grenzwertsatz besagt locker, dass mit zunehmender Stichprobengröße der Mittelwert der Stichprobe zu einer immer genaueren Schätzung des tatsächlichen Standorts des Populationsmittelwerts wird (vorausgesetzt, dies ist die Statistik, die Sie betrachten), und die Varianz wird enger .

Wenn Sie ein Modell haben und es eine Vorhersage für Ihre abhängige Variable erzeugt, ist diese Vorhersage wahrscheinlich bis zu einem gewissen Grad hoch oder niedrig. Wenn Sie jedoch 3, 5 oder 10 verschiedene Modelle haben, die für eine bestimmte Beobachtung unterschiedliche Vorhersagen liefern, gleichen die hohen Vorhersagen einiger Modelle tendenziell die niedrigen Fehler einiger anderer Modelle aus, und der Nettoeffekt ist eine Konvergenz des Durchschnitts (oder eine andere Kombination) der Vorhersagen zur "Wahrheit". Nicht bei jeder Beobachtung, aber im Allgemeinen ist das die Tendenz. Und so wird ein Ensemble im Allgemeinen das beste Einzelmodell übertreffen.

— Doug Dame
quelle