Betrachten Sie die folgenden drei Phänomene.
Steins Paradoxon: Angesichts einiger Daten aus der multivariaten Normalverteilung in ist der Stichprobenmittelwert kein sehr guter Schätzer für den wahren Mittelwert. Man kann eine Schätzung mit kleinerem mittleren Fehlerquadrat erhalten, wenn man alle Koordinaten des Stichprobenmittelwerts gegen Null schrumpft [oder gegen ihren Mittelwert oder gegen irgendeinen Wert, wenn ich das richtig verstehe].
Anmerkung: In der Regel wird Steins Paradoxon formuliert, indem nur ein einziger Datenpunkt aus berücksichtigt wird . Bitte korrigieren Sie mich, wenn dies entscheidend ist und meine obige Formulierung nicht korrekt ist.
Ridge-Regression: Bei einigen abhängigen Variablen und einigen unabhängigen Variablen tendiert die Standard-Regression um die Daten zu überbeanspruchen und zu schlechter Out-of-Sample-Leistung zu führen. Man kann die Überanpassung oft reduzieren, indem man gegen Null schrumpft : .
Zufällige Effekte in mehrstufigen / gemischten Modellen: Wenn eine abhängige Variable (z. B. die Größe des Schülers) von bestimmten kategorialen Prädiktoren (z. B. Schulkennung und Geschlecht des Schülers) abhängt, wird häufig empfohlen, einige Prädiktoren als „zufällig“ zu behandeln, dh dies anzunehmen Die durchschnittliche Schülergröße in jeder Schule ergibt sich aus einer bestimmten zugrunde liegenden Normalverteilung. Dies führt dazu, dass die Schätzungen der mittleren Größe pro Schule in Richtung des globalen Mittelwerts gesenkt werden.
Ich habe das Gefühl, dass all dies verschiedene Aspekte desselben "Schrumpfungs" -Phänomens sind, aber ich bin mir nicht sicher und es fehlt mir mit Sicherheit eine gute Intuition dafür. Meine Hauptfrage lautet also: Gibt es tatsächlich eine tiefe Ähnlichkeit zwischen diesen drei Dingen, oder ist es nur ein oberflächlicher Anschein? Was ist das gemeinsame Thema hier? Was ist die richtige Intuition?
Außerdem sind hier einige Teile dieses Puzzles, die für mich nicht wirklich zusammenpassen:
Bei der Gratregression wird nicht gleichmäßig geschrumpft. Die Rippenschrumpfung hängt tatsächlich mit der Singulärwertzerlegung von , wobei Richtungen mit geringer Varianz stärker geschrumpft werden (siehe z. B. Die Elemente des statistischen Lernens 3.4.1). Aber James-Stein-Schätzer nimmt einfach den Stichprobenmittelwert und multipliziert ihn mit einem Skalierungsfaktor. Wie passt das zusammen?X
Update: siehe James-Stein Estimator mit ungleichen Varianzen und hier zB Varianzen von Koeffizienten.
Der Stichprobenmittelwert ist in Dimensionen unter 3 optimal. Bedeutet dies, dass bei nur einem oder zwei Prädiktoren im Regressionsmodell die Kammregression immer schlechter ist als gewöhnliche kleinste Quadrate? Wenn ich es mir so überlege, kann ich mir keine Situation in 1D vorstellen (dh einfache, nicht-multiple Regression), in der ein Schrumpfen des Kamms von Vorteil wäre ...
Update: Nein. Siehe Unter welchen Bedingungen kann die Kammregression eine Verbesserung gegenüber der normalen Regression der kleinsten Quadrate bewirken?
Andererseits ist der Stichprobenmittelwert in Dimensionen über 3 immer suboptimal. Bedeutet dies, dass bei mehr als 3 Prädiktoren die Kammregression immer besser ist als die OLS, auch wenn alle Prädiktoren nicht korreliert sind (orthogonal)? Normalerweise ist die Gratregression durch Multikollinearität und die Notwendigkeit, den Term zu "stabilisieren", motiviert .
Update: Ja! Siehe den gleichen Thread wie oben.
Es gibt oft heftige Diskussionen darüber, ob verschiedene Faktoren in der ANOVA als feste oder zufällige Effekte einbezogen werden sollten. Sollten wir nach der gleichen Logik einen Faktor nicht immer als zufällig behandeln, wenn er mehr als zwei Ebenen hat (oder wenn es mehr als zwei Faktoren gibt? Jetzt bin ich verwirrt)?
Update :?
Update: Ich habe einige exzellente Antworten erhalten, aber keine liefert genug Informationen, so dass ich die Frage "offen" lassen werde. Ich kann versprechen, einer neuen Antwort eine Prämie von mindestens 100 Punkten zu verleihen , die die bestehenden Antworten übertrifft. Ich bin hauptsächlich auf der Suche nach einer einheitlichen Sichtweise, die erklären könnte, wie sich das allgemeine Phänomen des Schrumpfens in diesen verschiedenen Zusammenhängen manifestiert, und die Hauptunterschiede zwischen ihnen aufzeigen könnte.