Warum funktioniert das Schrumpfen wirklich, was ist das Besondere an 0?

Auf dieser Website gibt es bereits einen Beitrag, der sich mit demselben Thema befasst: Warum funktioniert das Schrumpfen?

Aber obwohl die Antworten beliebt sind, glaube ich nicht, dass der Kern der Frage wirklich angesprochen wird. Es ist ziemlich klar, dass die Einführung einer gewissen Verzerrung der Schätzung zu einer Verringerung der Varianz führt und die Qualität der Schätzung verbessern kann. Jedoch:

1) Warum ist der Schaden, der durch das Einbringen von Voreingenommenheit verursacht wird, geringer als der Varianzgewinn?

2) Warum funktioniert es immer? Zum Beispiel im Fall der Ridge-Regression: der Existenzsatz

3) Was ist so interessant an 0 (dem Ursprung)? Natürlich können wir überall schrumpfen (zB Stein Estimator ), aber wird es so gut wie der Ursprung funktionieren?

4) Warum bevorzugen verschiedene universelle Codierungsschemata eine geringere Anzahl von Bits um den Ursprung herum? Sind diese Hypothesen einfach wahrscheinlicher?

Es werden Antworten mit Verweisen auf bewährte Theoreme oder etablierte Ergebnisse erwartet.

regularization ridge-regression shrinkage

— Cagdas Ozgenc
quelle

@ KarolisKoncevičius, danke für die Behebung der Links! Lassen Sie mich jedoch bemerken, dass Ihre Sprachänderungen außer der letzten möglicherweise nicht sehr hilfreich sind. Die anderen scheinen überflüssigen Text hinzuzufügen und machen den Beitrag daher etwas weniger lesbar.

— Richard Hardy

3) "Was ist so interessant an der Herkunft?" Wie verstehen Sie diese Aussage? Wenn Sie einen Gruppenfaktor (z. B. Land) und einen Einzelfaktor (z. B. Stadt) haben, wird durch die Schrumpfung der Durchschnitt auf Länderebene gebracht, und nur Abweichungen auf Stadtebene mit genügend Daten haben einen Koeffizienten. Das heißt, Ihr Modell wird auf Gruppenebene verschoben (Länder-) Durchschnitt (durch

— Verschieben der

Antworten:

1) Warum ist der Schaden, der durch das Einbringen von Voreingenommenheit verursacht wird, geringer als der Varianzgewinn?

Es muss nicht, es ist nur in der Regel . Ob sich der Kompromiss lohnt, hängt von der Verlustfunktion ab. Aber die Dinge, die uns im wirklichen Leben interessieren, ähneln oft dem quadratischen Fehler (z. B. kümmern wir uns mehr um einen großen Fehler als um zwei Fehler, die halb so groß sind).

Als Gegenbeispiel - stellen Sie sich vor, dass wir die SAT-Werte für College-Zulassungen ein wenig in Richtung der mittleren SAT-Werte für die demografische Gruppe (wie auch immer definiert) senken. Wenn dies richtig gemacht wird, werden die Varianz und der mittlere Fehlerquadrat der Schätzungen der (irgendeiner Art von) Fähigkeit der Person reduziert, während eine Verzerrung eingeführt wird. Die meisten Leute würden meiner Meinung nach argumentieren, dass ein solcher Kompromiss nicht akzeptabel ist.

2) Warum funktioniert es immer?

3) Was ist so interessant an 0 (dem Ursprung)? Natürlich können wir überall schrumpfen (zB Stein Estimator), aber wird es so gut wie der Ursprung funktionieren?

Ich denke, das liegt daran, dass wir normalerweise Koeffizienten oder Effektschätzungen verkleinern. Es gibt Gründe zu der Annahme, dass die meisten Effekte nicht groß sind (siehe z. B. Andrew Gelmans Einstellung ). Man kann sagen, dass eine Welt, in der alles alles stark beeinflusst, eine gewalttätige, unberechenbare Welt ist. Da unsere Welt so vorhersehbar ist, dass wir ein langes Leben führen und halbstabile Zivilisationen aufbauen können, sind die meisten Auswirkungen nicht groß.

Da die meisten Effekte nicht groß sind, ist es nützlich, die wenigen wirklich großen fälschlicherweise zu verkleinern und gleichzeitig die Lasten vernachlässigbarer Effekte richtig zu verkleinern.

Ich glaube, dies ist nur eine Eigenschaft unserer Welt, und Sie könnten wahrscheinlich selbstkonsistente Welten konstruieren, in denen das Schrumpfen nicht praktikabel ist (höchstwahrscheinlich, indem Sie den quadratischen Fehler zu einer unpraktischen Verlustfunktion machen). Es ist einfach nicht die Welt, in der wir leben.

Auf der anderen Seite gibt es Fälle, in denen das Schrumpfen als vorherige Verteilung in der Bayes'schen Analyse in der Praxis aktiv schädlich ist.

Ein Beispiel ist die Längenskala in Gaußschen Prozessen (bei denen 0 problematisch ist). In Stan's Handbuch wird empfohlen , eine Prioritätsstufe zu verwenden, die ein vernachlässigbares Gewicht nahe Null bringt, dh kleine Werte effektiv von Null "schrumpft". In ähnlicher Weise schrumpfen die empfohlenen Prioritäten für die Dispersion in der negativen Binomialverteilung effektiv von Null weg. Zu guter Letzt ist es immer dann sinnvoll, wenn die Normalverteilung (wie in INLA) genau parametrisiert wird, Inverse-Gamma-Verteilungen oder andere frühere Verteilungen zu verwenden, die von Null abweichen.

4) Warum bevorzugen verschiedene universelle Codierungsschemata eine geringere Anzahl von Bits um den Ursprung herum? Sind diese Hypothesen einfach wahrscheinlicher?

Nun, dies ist weit von meiner Tiefe entfernt, aber Wikipedia sagt, dass wir im universellen Kodierungsschema ( per Definition ) für alle positiven erwarten, so dass diese Eigenschaft eine einfache Konsequenz der Definition zu sein scheint und nicht im Zusammenhang mit Schrumpfung (oder fehle ich etwas?) $P(i) ≥ P(i + 1)$ $i$

— Martin Modrák
quelle

Die Antwort zu 1) ist eigentlich gut!

— David

Es ist klar, dass Andrew Gelman Standardmodelle im Auge hatte, bei denen wir Koeffizienten mit Eingaben multiplizieren. Dies muss nicht unbedingt der Fall sein. Was ist, wenn der Koeffizient umgekehrt in das Modell eingeht? Dann wird 0 Dinge in die Luft jagen.

— Cagdas Ozgenc

@CowboyTrader Ja, und es gibt reale Anwendungsfälle, in denen 0 problematisch ist und wir zurückschrecken (zur Antwort hinzugefügt). Ich glaube, es unterstützt ein wenig den Punkt, dass das Schrumpfen gegen Null nur eine Heuristik ist, die (in der Praxis) häufig funktioniert, aber keine fundamentale mathematische Wahrheit ist.

— Martin Modrák

Entschuldigung für meine erste Reaktion. Ihre Antwort wird aussagekräftiger. Beachten Sie, dass das Schrumpfen unter anderen Verlustfunktionen funktioniert, nicht nur unter Quadratverlust. Das eigentliche Problem, dem ich nachgehe, ist, warum zum Teufel es immer funktioniert. Für Mittel- / Ortsparameter scheint 0 eine magische Zahl zu sein.

— Cagdas Ozgenc

@CowboyTrader Ich vermisse vielleicht etwas, aber zumindest im Fall des Stein-Schätzers ist die Verbesserung aufgrund des Schrumpfens eine Funktion des Abstands zwischen den wahren Werten und dem Punkt, auf den Sie schrumpfen, sodass 0 keine magische Zahl ist. Wenn relativ zu den beobachteten Werten groß ist, verschiebt der Stein-Schätzer die Schätzung von Null weg. Ich bin mir also nicht sicher, ob das allgemeine Muster, von dem Sie sprechen, tatsächlich für Mittelwert / Ort existiert. Oder gibt es andere Beispiele, die immer gegen Null schrumpfen?

σ

$\sigma$

— Martin Modrák,

Ridge, Lasso und elastisches Netz ähneln den Bayes'schen Methoden, wobei die Prioritäten auf Null zentriert sind - siehe zum Beispiel Statistical Learning with Sparsity von Hastie, Tibshirani und Wainwright, Abschnitt 2.9 Lq Penalties and Bayes Estimates: "Es gibt auch eine Bayes'sche Sicht auf diese Schätzer. ... Dies bedeutet, dass die Lasso-Schätzung der Bayes'sche MAP-Schätzer (Maximum Aposteriori) ist, der einen Laplace-Prior verwendet. "

Eine Möglichkeit zur Beantwortung Ihrer Frage ( what's so special about zero?) besteht darin, dass die von uns geschätzten Effekte im Durchschnitt Null sind und in der Regel gering sind (dh unsere Prioritäten sollten um Null herum zentriert sein). Eine Schätzung der Schrumpfung gegen Null ist dann im Bayes'schen Sinne optimal, und Lasso und Rillen sowie elastische Netze können durch diese Linse betrachtet werden.

— Adrian
quelle

Das Verkleinern auf Null ist nichts Besonderes (außer dass die Gleichung einfacher ist, weil Sie das Ergebnis einfach mit einem bestimmten Faktor multiplizieren). Sie können auch auf einen anderen Punkt verkleinern. Je weiter dieser Punkt vom wahren Wert entfernt ist, desto schlechter ist die Leistung des Schrumpfens (aber für jeden Punkt gibt es eine gewisse Menge an Schrumpf, die zu einer gewissen Leistungssteigerung führt ... zumindest für verteilte Gauß-Variablen). Wenn ein Ergebnis also typischerweise weit von Null entfernt ist, führt das Schrumpfen auf Null nur zu einer sehr geringen Verbesserung.

— Sextus Empiricus

@MartijnWeterings Es ist ideal, die Wahrheit selbst klar in den Vordergrund zu stellen (Volltreffer). Aber warum ist es immer noch besser, auf 0 zu schrumpfen? Das ist es, wonach ich bin.

— Cagdas Ozgenc

@CowboyTrader Das Schrumpfen auf einen beliebigen Wert führt zu einer Verbesserung. Deshalb funktioniert es auch für 0.

— Sextus Empiricus

@MartijnWeterings Ja, aber die Grenzen der Lerntheorie basieren so ziemlich immer auf der Herkunft. Sie legen eine Kugel / ein Polyeder / usw. in die Mitte des Ursprungs. Ist es nur ein Beweis für Bequemlichkeit? MDL-Hypothesen codieren ganze Zahlen, indem 0 die kürzeste Codelänge angibt? Zufall?

— Cagdas Ozgenc

Angenommen, Sie führen eine Gratregression durch, wenn alle Variablen tatsächlich Teil des Modells sind (was in der Praxis nicht üblich ist), dann funktioniert dies nicht so gut. Vielleicht ist es das, was Adrian mit "die Effekte sind im Durchschnitt Null und sie sind tendenziell gering" gemeint hat (ich kenne keine Fälle, für die dies genau zutrifft. Aber es gibt viele Fälle im maschinellen Lernen, in denen wir viel Nahrung zu uns nehmen Parameter, und wo viele wahrscheinlich nicht benötigt werden, dann sind die meisten Effekte Null oder klein.)

— Sextus Empiricus