Warum funktioniert das Schrumpfen?

Um Probleme bei der Modellauswahl zu lösen, werden durch eine Reihe von Methoden (LASSO, Ridge-Regression usw.) die Koeffizienten der Prädiktorvariablen gegen Null gesenkt. Ich suche nach einer intuitiven Erklärung, warum dies die Vorhersagefähigkeit verbessert. Wenn der wahre Effekt der Variablen tatsächlich sehr groß war, warum führt ein Verkleinern des Parameters nicht zu einer schlechteren Vorhersage?

— angehender Statistiker
quelle

Grob gesagt gibt es drei verschiedene Ursachen für Vorhersagefehler:

die Tendenz Ihres Modells
die Varianz Ihres Modells
unerklärliche Varianz

Gegen Punkt 3 können wir nichts unternehmen (außer zu versuchen, die unerklärte Varianz abzuschätzen und sie in unsere prädiktiven Dichten und Vorhersageintervalle einzubeziehen). Dies lässt uns mit 1 und 2.

Wenn Sie tatsächlich das "richtige" Modell haben, sind die OLS-Parameterschätzer unverzerrt und haben eine minimale Varianz unter allen unverzerrten (linearen) Schätzern (sie sind BLAU). Vorhersagen aus einem OLS-Modell sind die besten linearen unverzerrten Vorhersagen (BLUPs). Das klingt gut.

Es stellt sich jedoch heraus, dass wir zwar unvoreingenommene Vorhersagen und eine minimale Varianz unter allen unvoreingenommenen Vorhersagen haben, die Varianz jedoch immer noch ziemlich groß sein kann. Noch wichtiger ist, dass wir manchmal "ein wenig" Verzerrung einführen und gleichzeitig "viel" Abweichung sparen können - und indem wir den Kompromiss genau richtig machen, können wir mit einem verzerrten Modell (geringere Abweichung) einen geringeren Vorhersagefehler erzielen als mit einem unvoreingenommenen Modell ( höhere Varianz) eins. Dies wird als "Bias-Varianz-Kompromiss" bezeichnet, und diese Frage und ihre Antworten sind aufschlussreich: Wann ist ein verzerrter Schätzer dem unverzerrten vorzuziehen?

Und Regularisierung wie das Lasso, die Gratregression, das elastische Netz und so weiter machen genau das. Sie ziehen das Modell gegen Null. (Bayesianische Ansätze sind ähnlich - sie ziehen das Modell zu den Priors.) Regularisierte Modelle sind daher voreingenommen gegenüber nicht-Regularisierten Modellen, haben aber auch eine geringere Varianz. Wenn Sie Ihr Regularisierungsrecht wählen, ist das Ergebnis eine Vorhersage mit einem geringeren Fehler.

Wenn Sie nach "Bias-Varianz-Kompromiss-Regularisierung" oder ähnlichem suchen , erhalten Sie einige Denkanstöße. Diese Präsentation ist zum Beispiel nützlich.

EDIT: amoeba weist zu Recht darauf hin, dass ich handwedele, warum genau Regularisierung eine geringere Varianz von Modellen und Vorhersagen ergibt . Betrachten Sie ein Lasso-Modell mit einem großen Regularisierungsparameter . Wenn , werden alle Ihre Lasso-Parameterschätzungen auf Null geschrumpft. Ein fester Parameterwert von Null hat eine Varianz von Null. (Dies ist nicht ganz korrekt, da der Schwellenwert von dem Ihre Parameter auf Null verkleinert werden, von Ihren Daten und Ihrem Modell abhängt. Bei gegebenem Modell und Daten können Sie jedoch ein $\lambda$ $\lambda\to\infty$ $\lambda$ $\lambda$ so dass das Modell das Nullmodell ist. Halten Sie Ihre Quantifizierer immer gerade.) Das Nullmodell weist jedoch natürlich auch eine große Tendenz auf. Die tatsächlichen Beobachtungen sind ihm schließlich egal.

Das Gleiche gilt für nicht allzu extreme Werte Ihrer Regularisierungsparameter: Kleine Werte ergeben die unregelmäßigen Parameterschätzungen, die weniger verzerrt sind (unvoreingenommen, wenn Sie das "richtige" Modell haben), aber höher sind Varianz. Sie "springen herum" und folgen Ihren tatsächlichen Beobachtungen. Höhere Werte Ihrer Regularisierung werden Ihre Parameterschätzungen immer mehr "einschränken". Aus diesem Grund haben die Methoden Namen wie "Lasso" oder "elastisches Netz": Sie schränken die Freiheit Ihrer Parameter ein, sich zu bewegen und den Daten zu folgen. $\lambda$

(Ich schreibe eine kleine Arbeit darüber, die hoffentlich ziemlich zugänglich sein wird. Ich werde einen Link hinzufügen, sobald er verfügbar ist.)

— S. Kolassa - Setzen Sie Monica wieder ein
quelle

Das entscheidende Element des Puzzles scheint zu sein: Warum verringern Schrumpfungsmethoden die Varianz? (Dass sie eine gewisse Voreingenommenheit hervorrufen, ist mehr oder weniger offensichtlich.) Sie geben einfach an, dass sie dies tun; Kannst du dir eine Vorstellung davon machen?

— Amöbe sagt Reinstate Monica

@Stephan Kolassa Das Hinzufügen des Bestrafungsterms, der die Größe der Koeffizienten berücksichtigt, fügt ein wenig Verzerrung hinzu, verringert jedoch die Variabilität, da große Koeffizienten bestraft werden, die im Allgemeinen eine größere Variabilität aufweisen als kleinere Koeffizienten. Ist das korrekt? Dann sind wir letztendlich nicht so besorgt darüber, den „richtigen“ Wert für einen bestimmten Koeffizienten zu erhalten, sondern interessieren uns nur für die allgemeine Vorhersagefähigkeit des Modells?

— aspiringstatistician

@aspiringstatistician: Dein zweiter Satz ist genau richtig. (Erinnern Sie sich an George Box bezüglich "falscher, aber nützlicher" Modelle.) Ich würde mir nicht allzu viele Sorgen darüber machen, ob große Parameterschätzungen mehr als kleine verkleinert werden. Erstens wird dies von der Standardisierung abhängen. Zweitens, wenn Ihre großen Parameterwerte gut geschätzt werden (dh mit geringem Fehler), werden sie nicht unbedingt stark verkleinert. Die Regularisierung "zieht" es vor, die Parameter zu verkleinern, die schlecht definiert sind, dh eine hohe Varianz aufweisen.

— S. Kolassa - Wiedereinsetzung von Monica

+1. Viel Glück mit dem Papier! @aspiringstatistician: Sehr gute Beobachtung, dass es beim Schrumpfen nicht darum geht, das richtige Modell zu erhalten; Dies ist genau richtig (und es lohnt sich, darüber nachzudenken): Ein korrekt angegebenes Modell kann schlechtere Vorhersagemöglichkeiten aufweisen als das regulierte und "weniger wahre" Modell ( ein Beispiel finden Sie im Anhang auf Seite 307 dieses Dokuments ).

— Amöbe sagt Reinstate Monica

+1. Ich wollte nur hinzufügen, dass sich die Frage nach der Intuition regulierter Modelle zwar stellt, sich jedoch etwas unvollständig anfühlt, ganz zu schweigen von der Bayes'schen Herleitung dieser Modelle. Wenn ich zum Beispiel die Ridge-Regression mit einer einfachen MLE vergleiche, erscheint es mir in den meisten Anwendungen selbstverständlich, zu denken, dass der Effekt aus einer Normalverteilung und nicht aus einer gleichmäßigen (falschen) Verteilung resultiert. Wenn man diese Techniken als Spezialfälle der MAP-Schätzung ansieht, wird klar, warum man sich für eine Kammregression entscheidet.

— Jlimahaverford

$p \geq 3$

Lesen Sie diese Antwort für mehr. Anscheinend ist Steins Paradox mit dem bekannten Theorem verwandt, dass ein Brow'scher Bewegungsprozess in drei oder mehr Dimensionen nicht wiederkehrend ist (er wandert überall herum, ohne zum Ursprung zurückzukehren), während die eindimensionalen und zweidimensionalen Brownschen wiederkehrend sind.

Steins Paradoxon gilt unabhängig davon, wohin Sie schrumpfen. In der Praxis ist es jedoch besser, wenn Sie auf die wahren Parameterwerte schrumpfen. Das tun die Bayesianer. Sie glauben zu wissen, wo der wahre Parameter liegt, und schrumpfen darauf zu. Dann behaupten sie, Stein bestätige ihre Existenz.

Es wird ein Paradox genannt, gerade weil es unsere Intuition herausfordert. Wenn Sie jedoch an die Brownsche Bewegung denken, besteht die einzige Möglichkeit, eine 3D-Brownsche Bewegung zum Ursprung zurückzukehren, darin, den Stufen eine Dämpfungsstrafe aufzuerlegen. Ein Schrumpfungsschätzer legt den Schätzungen auch eine Art Dämpfer auf (verringert die Varianz), weshalb er funktioniert.

— Placidia
quelle

Haben Sie eine Referenz für den Zusammenhang zwischen Steins Paradoxon und Brownschen Prozessen?

— kjetil b halvorsen

Folgen Sie meinem Link unter "Lesen Sie diese Antwort für mehr". Diese Antwort enthält einen Link zu einem Dokument, das die Verbindung herstellt.

— Placidia

Bayes-Schätzer sind nach dem gesamten Klassensatz zulässig: Sie haben nichts mit dem JS-Schätzer direkt zu tun. Das Ergebnis, dass JS den Stichprobenmittelwert dominiert, hat jedoch das Interesse geweckt, Bayes-Schätzer zu untersuchen. (Ich wende mich gegen die Behauptung, dass Bayesianer "behaupten, Stein bestätige ihre Existenz".)

— user795305