1) Warum ist der Schaden, der durch das Einbringen von Voreingenommenheit verursacht wird, geringer als der Varianzgewinn?
Es muss nicht, es ist nur in der Regel . Ob sich der Kompromiss lohnt, hängt von der Verlustfunktion ab. Aber die Dinge, die uns im wirklichen Leben interessieren, ähneln oft dem quadratischen Fehler (z. B. kümmern wir uns mehr um einen großen Fehler als um zwei Fehler, die halb so groß sind).
Als Gegenbeispiel - stellen Sie sich vor, dass wir die SAT-Werte für College-Zulassungen ein wenig in Richtung der mittleren SAT-Werte für die demografische Gruppe (wie auch immer definiert) senken. Wenn dies richtig gemacht wird, werden die Varianz und der mittlere Fehlerquadrat der Schätzungen der (irgendeiner Art von) Fähigkeit der Person reduziert, während eine Verzerrung eingeführt wird. Die meisten Leute würden meiner Meinung nach argumentieren, dass ein solcher Kompromiss nicht akzeptabel ist.
2) Warum funktioniert es immer?
3) Was ist so interessant an 0 (dem Ursprung)? Natürlich können wir überall schrumpfen (zB Stein Estimator), aber wird es so gut wie der Ursprung funktionieren?
Ich denke, das liegt daran, dass wir normalerweise Koeffizienten oder Effektschätzungen verkleinern. Es gibt Gründe zu der Annahme, dass die meisten Effekte nicht groß sind (siehe z. B. Andrew Gelmans Einstellung ). Man kann sagen, dass eine Welt, in der alles alles stark beeinflusst, eine gewalttätige, unberechenbare Welt ist. Da unsere Welt so vorhersehbar ist, dass wir ein langes Leben führen und halbstabile Zivilisationen aufbauen können, sind die meisten Auswirkungen nicht groß.
Da die meisten Effekte nicht groß sind, ist es nützlich, die wenigen wirklich großen fälschlicherweise zu verkleinern und gleichzeitig die Lasten vernachlässigbarer Effekte richtig zu verkleinern.
Ich glaube, dies ist nur eine Eigenschaft unserer Welt, und Sie könnten wahrscheinlich selbstkonsistente Welten konstruieren, in denen das Schrumpfen nicht praktikabel ist (höchstwahrscheinlich, indem Sie den quadratischen Fehler zu einer unpraktischen Verlustfunktion machen). Es ist einfach nicht die Welt, in der wir leben.
Auf der anderen Seite gibt es Fälle, in denen das Schrumpfen als vorherige Verteilung in der Bayes'schen Analyse in der Praxis aktiv schädlich ist.
Ein Beispiel ist die Längenskala in Gaußschen Prozessen (bei denen 0 problematisch ist). In Stan's Handbuch wird empfohlen , eine Prioritätsstufe zu verwenden, die ein vernachlässigbares Gewicht nahe Null bringt, dh kleine Werte effektiv von Null "schrumpft". In ähnlicher Weise schrumpfen die empfohlenen Prioritäten für die Dispersion in der negativen Binomialverteilung effektiv von Null weg. Zu guter Letzt ist es immer dann sinnvoll, wenn die Normalverteilung (wie in INLA) genau parametrisiert wird, Inverse-Gamma-Verteilungen oder andere frühere Verteilungen zu verwenden, die von Null abweichen.
4) Warum bevorzugen verschiedene universelle Codierungsschemata eine geringere Anzahl von Bits um den Ursprung herum? Sind diese Hypothesen einfach wahrscheinlicher?
Nun, dies ist weit von meiner Tiefe entfernt, aber Wikipedia sagt, dass wir im universellen Kodierungsschema ( per Definition ) für alle positiven erwarten, so dass diese Eigenschaft eine einfache Konsequenz der Definition zu sein scheint und nicht im Zusammenhang mit Schrumpfung (oder fehle ich etwas?)P(i)≥P(i+1)i