Grob gesagt gibt es drei verschiedene Ursachen für Vorhersagefehler:
- die Tendenz Ihres Modells
- die Varianz Ihres Modells
- unerklärliche Varianz
Gegen Punkt 3 können wir nichts unternehmen (außer zu versuchen, die unerklärte Varianz abzuschätzen und sie in unsere prädiktiven Dichten und Vorhersageintervalle einzubeziehen). Dies lässt uns mit 1 und 2.
Wenn Sie tatsächlich das "richtige" Modell haben, sind die OLS-Parameterschätzer unverzerrt und haben eine minimale Varianz unter allen unverzerrten (linearen) Schätzern (sie sind BLAU). Vorhersagen aus einem OLS-Modell sind die besten linearen unverzerrten Vorhersagen (BLUPs). Das klingt gut.
Es stellt sich jedoch heraus, dass wir zwar unvoreingenommene Vorhersagen und eine minimale Varianz unter allen unvoreingenommenen Vorhersagen haben, die Varianz jedoch immer noch ziemlich groß sein kann. Noch wichtiger ist, dass wir manchmal "ein wenig" Verzerrung einführen und gleichzeitig "viel" Abweichung sparen können - und indem wir den Kompromiss genau richtig machen, können wir mit einem verzerrten Modell (geringere Abweichung) einen geringeren Vorhersagefehler erzielen als mit einem unvoreingenommenen Modell ( höhere Varianz) eins. Dies wird als "Bias-Varianz-Kompromiss" bezeichnet, und diese Frage und ihre Antworten sind aufschlussreich: Wann ist ein verzerrter Schätzer dem unverzerrten vorzuziehen?
Und Regularisierung wie das Lasso, die Gratregression, das elastische Netz und so weiter machen genau das. Sie ziehen das Modell gegen Null. (Bayesianische Ansätze sind ähnlich - sie ziehen das Modell zu den Priors.) Regularisierte Modelle sind daher voreingenommen gegenüber nicht-Regularisierten Modellen, haben aber auch eine geringere Varianz. Wenn Sie Ihr Regularisierungsrecht wählen, ist das Ergebnis eine Vorhersage mit einem geringeren Fehler.
Wenn Sie nach "Bias-Varianz-Kompromiss-Regularisierung" oder ähnlichem suchen , erhalten Sie einige Denkanstöße. Diese Präsentation ist zum Beispiel nützlich.
EDIT: amoeba weist zu Recht darauf hin, dass ich handwedele, warum genau Regularisierung eine geringere Varianz von Modellen und Vorhersagen ergibt . Betrachten Sie ein Lasso-Modell mit einem großen Regularisierungsparameter . Wenn , werden alle Ihre Lasso-Parameterschätzungen auf Null geschrumpft. Ein fester Parameterwert von Null hat eine Varianz von Null. (Dies ist nicht ganz korrekt, da der Schwellenwert von dem Ihre Parameter auf Null verkleinert werden, von Ihren Daten und Ihrem Modell abhängt. Bei gegebenem Modell und Daten können Sie jedoch ein& lgr; → ∞ & lgr; & lgr;λλ → ∞λλso dass das Modell das Nullmodell ist. Halten Sie Ihre Quantifizierer immer gerade.) Das Nullmodell weist jedoch natürlich auch eine große Tendenz auf. Die tatsächlichen Beobachtungen sind ihm schließlich egal.
Das Gleiche gilt für nicht allzu extreme Werte Ihrer Regularisierungsparameter: Kleine Werte ergeben die unregelmäßigen Parameterschätzungen, die weniger verzerrt sind (unvoreingenommen, wenn Sie das "richtige" Modell haben), aber höher sind Varianz. Sie "springen herum" und folgen Ihren tatsächlichen Beobachtungen. Höhere Werte Ihrer Regularisierung werden Ihre Parameterschätzungen immer mehr "einschränken". Aus diesem Grund haben die Methoden Namen wie "Lasso" oder "elastisches Netz": Sie schränken die Freiheit Ihrer Parameter ein, sich zu bewegen und den Daten zu folgen.λ
(Ich schreibe eine kleine Arbeit darüber, die hoffentlich ziemlich zugänglich sein wird. Ich werde einen Link hinzufügen, sobald er verfügbar ist.)