James-Stein-Schätzer mit ungleichen Varianzen

Jede Aussage, die ich vom James-Stein-Schätzer finde, geht davon aus, dass die zu schätzenden Zufallsvariablen dieselbe (und Einheits-) Varianz haben.

Alle diese Beispiele erwähnen jedoch auch, dass der JS-Schätzer verwendet werden kann, um Mengen zu schätzen, die nichts miteinander zu tun haben. Das Wikipedia-Beispiel ist die Lichtgeschwindigkeit, der Teekonsum in Taiwan und das Schweinegewicht in Montana. Vermutlich würden Ihre Messungen an diesen drei Größen jedoch unterschiedliche "wahre" Abweichungen aufweisen. Stellt dies ein Problem dar?

Dies hängt mit einem größeren konzeptionellen Problem zusammen, das ich im Zusammenhang mit dieser Frage nicht verstehe: James-Stein-Schätzer: Wie haben Efron und Morris den Schrumpfungsfaktor $\sigma^2$ für ihr Baseball-Beispiel berechnet ? Wir berechnen den Schrumpfungsfaktor $c$ wie folgt:

c = 1 - \frac{(k - 3) σ^{2}}{\sum (y - \bar{y})^{2}}

$c = 1 - \frac{(k-3) \sigma^2} {\sum (y - \bar{y})^2}$

Intuitiv würde ich denken, dass der $\sigma^2$ -Term tatsächlich $\sigma^2_i$ - für jede geschätzte Größe unterschiedlich. In der Diskussion in dieser Frage geht es jedoch nur um die Verwendung der gepoolten Varianz ...

Ich würde mich sehr freuen, wenn jemand diese Verwirrung beseitigen könnte!

estimation shrinkage steins-phenomenon

— exp1orer
quelle

Wenn die Varianz

können wir nur links multiplizieren mit

an das James-Stein Problem zu kommen. Wenn

sind nicht bekannt, aber jede „Beobachtung“ im Problem ist ein Stichprobenmittelwert auf der Grundlage der berechneten

Beobachtungen , die wir schätzen

mit einigen

und hofft , dass wir auch eine James-Stein Situation, wenn wir multiplizieren vorab durch

statt.

D = diag (σ_{1}^{2}, \dots, σ_{n}^{2})

$D = \mbox{diag}(\sigma_1^2, \ldots, \sigma_n^2)$

D^{- 1 / 2}

$D^{-1/2}$

D

$D$

m_{i}

$m_i$

D

$D$

\hat{D}

$\hat D$

{\hat{D}}^{- 1 / 2}

$\hat D^{-1/2}$

— Kerl

@guy: Dies ist ein vernünftiger Vorschlag (+1), dies führt jedoch zu demselben Schrumpfungsfaktor für alle Variablen, während man Variablen je nach Varianz / Unsicherheit unterschiedlich schrumpfen möchte. Siehe die Antwort, die ich gerade gepostet habe.

— Amöbe sagt Reinstate Monica

@amoeba Sicher; Ich habe nicht vorgeschlagen, dass mein Schätzer praktisch ist, sondern nur, dass er veranschaulicht, warum die Leute die in seinem zweiten Absatz erwähnten Dinge OP sagen.

— Kerl

Diese Frage wurde in der klassischen Reihe von Arbeiten zum James-Stein-Schätzer im empirischen Bayes-Kontext, die in den 1970er Jahren von Efron & Morris verfasst wurden, explizit beantwortet. Ich beziehe mich hauptsächlich auf:

Efron und Morris, 1973, Steins Schätzregel und ihre Konkurrenten - Ein empirischer Bayes-Ansatz
Efron und Morris, 1975, Datenanalyse mit Steins Schätzer und seinen Verallgemeinerungen
Efron und Morris, 1977, Steins Paradoxon in der Statistik

Das Papier von 1977 ist eine nichttechnische Darstellung, die man unbedingt lesen muss. Dort stellen sie das Baseball-Schlagbeispiel vor (das in dem Thread, mit dem Sie verlinkt haben, besprochen wird). In diesem Beispiel sollen die Beobachtungsvarianzen tatsächlich für alle Variablen gleich sein, und der Schrumpfungsfaktor $c$ ist konstant.

Sie geben jedoch ein weiteres Beispiel an, bei dem die Toxoplasmoseraten in einer Reihe von Städten in El Salvador geschätzt werden. In jeder Stadt wurde eine unterschiedliche Anzahl von Personen befragt, so dass bei einzelnen Beobachtungen (Toxoplasmoserate in jeder Stadt) unterschiedliche Varianzen angenommen werden können (je geringer die Anzahl der befragten Personen ist, desto höher ist die Varianz). Die Intuition ist sicherlich, dass Datenpunkte mit geringer Varianz (geringe Unsicherheit) nicht so stark geschrumpft werden müssen wie Datenpunkte mit hoher Varianz (hohe Unsicherheit). Das Ergebnis ihrer Analyse ist in der folgenden Abbildung dargestellt, in der dies tatsächlich zu sehen ist:

enter image description here

Dieselben Daten und Analysen werden auch in dem viel technischeren Papier von 1975 in einer viel eleganteren Abbildung dargestellt (die einzelnen Abweichungen werden jedoch leider nicht angezeigt), siehe Abschnitt 3:

enter image description here

Dort präsentieren sie eine vereinfachte empirische Bayes-Behandlung, die wie folgt abläuft. Sei

X_{i} | θ_{i} \sim N (θ_{i}, D_{i}) θ_{i} \sim N (0, A)

$X_i|\theta_i \sim \mathcal N(\theta_i, D_i)\\ \theta_i \sim \mathcal N(0, A)$ wobei

A

$A$ unbekannt ist. Falls alle

D_{i} = 1

$D_i=1$ identisch sind, ist die StandardEmpirical Bayes Behandlung abzuschätzen

1 / (1 + A)

$1/(1+A)$ als

(k - 2) / \sum X_{j}^{2}

$(k-2)/\sum X_j ^2$ , und den a posteriori Mittelwert zu berechnen

θ_{i}

$\theta_i$ als

{\hat{θ}}_{i} = (1 - \frac{1}{1 + A}) X_{i} = (1 - \frac{k - 2}{\sum X_{j}^{2}}) X_{i},

$\hat \theta_i = \left(1-\frac{1}{1+A}\right)X_i = \left(1-\frac{k-2}{\sum X_j^2}\right)X_i,$ was nichts anderes als der James-Stein-Schätzer ist.

Wenn jetzt $D_i \ne 1$ , dann ist die Aktualisierung der Bayes - Regel

{\hat{θ}}_{i} = (1 - \frac{D_{i}}{D_{i} + A}) X_{i}

$\hat \theta_i = \left(1-\frac{D_i}{D_i+A}\right)X_i$ und wir können den gleichen empirische Bayes Trick verwendenum abzuschätzen

A

$A$ , auch wenn es für keine geschlossene Formel

in diesem Fall (siehe Papier). Sie stellen jedoch fest, dass

\hat{A}

$\hat A$

... diese Regel reduziert sich nicht auf Steins, wenn alle $D_j$ gleich sind, und wir verwenden stattdessen eine geringfügige Variante dieses Schätzers, die in [der Arbeit von 1973] abgeleitet wurde und sich auf Steins reduziert. Die Variante Regel schätzt einen anderen Wert für jede Stadt. Der Unterschied zwischen den Regeln ist in diesem Fall gering, aber es könnte wichtig sein, wenn kleiner wäre. $\hat A_i$ $k$

Der relevante Abschnitt in der Veröffentlichung von 1973 ist Abschnitt 8, und es ist etwas schwieriger zu lesen. Interessanterweise haben sie dort einen expliziten Kommentar zu dem Vorschlag von @guy in den obigen Kommentaren:

$\tilde x_i = D_i^{-1/2} x_i, \tilde \theta_i = D_i^{-1/2} \theta_i$ $\tilde x_i \sim \mathcal N(\tilde \theta_i, 1)$ $\theta_i$
${\hat{θ}}_{i} = (1 - \frac{k - 2}{\sum [X_{j}^{2} / D_{j}]}) X_{i} .$ $\hat \theta_i = \left(1-\frac{k-2}{\sum [X_j^2 / D_j]}\right)X_i.$ $X_i$

$\hat A_i$

— Amöbe sagt Reinstate Monica
quelle