Bayes-Schätzer sind immun gegen Selektionsverzerrungen

Sind Bayes-Schätzer immun gegen Selektionsverzerrungen?

Die meisten Veröffentlichungen, in denen die Schätzung in hoher Dimension erörtert wird, z. B. Daten zur gesamten Genomsequenz, werfen häufig das Problem der Selektionsverzerrung auf. Die Auswahlverzerrung ergibt sich aus der Tatsache, dass, obwohl wir Tausende potenzieller Prädiktoren haben, nur wenige ausgewählt werden und auf die ausgewählten wenigen geschlossen wird. Der Prozess läuft also in zwei Schritten ab: (1) Auswählen einer Teilmenge von Prädiktoren (2) Durchführen einer Inferenz auf die ausgewählten Mengen, z. B. Schätzen von Quotenverhältnissen. Dawid konzentrierte sich in seinem Paradoxonpapier von 1994 auf unvoreingenommene Schätzer und Bayes-Schätzer. Er vereinfacht das Problem bei der Auswahl des größten Effekts, der ein Behandlungseffekt sein könnte. Dann, sagt er, sind unvoreingenommene Schätzer von Selektionsverzerrungen betroffen. Er benutzte das Beispiel: Nimm

Z_{i} \sim N (δ_{i}, 1), i = 1, \dots, N

$Z_i\sim N(\delta_i,1),\quad i=1,\ldots,N$ dann ist jedes

Z_{i}

$Z_i$ für

δ_{i}

$\delta_i$ . Sei

Z = (Z_{1}, Z_{2}, \dots, Z_{N})^{T}

$\mathbf{Z}=(Z_1,Z_2,\ldots,Z_N)^T$ , der Schätzer

γ_{1} (Z) = max {Z_{1}, Z_{2}, \dots, Z_{N}}

$\gamma_1(\mathbf{Z})=\max\{Z_1,Z_2,\ldots,Z_N\}$ ist jedoch für

(positiv) vorgespannt.

max {δ_{1}, δ_{2}, \dots, δ_{N}}

$\max\{\delta_1,\delta_2,\ldots,\delta_N\}$ . Diese Aussage kann leicht mit Jensens Ungleichung bewiesen werden. Wenn wir also

i_{max}

$i_{\max}$ , den Index des größten

δ_{i}

$\delta_i$ , werden wir nur

Z_{i_{max}}

$Z_{i_{\max}}$ als Schätzer verwenden, der unvoreingenommen ist. Aber weil wir das nicht wissen, verwenden wir stattdessen

γ_{1} (Z)

$\gamma_1(\mathbf{Z})$ das (positiv) voreingenommen wird.

Die besorgniserregende Aussage von Dawid, Efron und anderen Autoren ist jedoch, dass Bayes-Schätzer immun gegen Selektionsverzerrungen sind. Wenn ich nun vor setze , sagen wir , Dann ist der Bayes-Schätzer von durch $\delta_i$ $\delta_i\sim g(.)$ $\delta_i$ wobei

E {δ_{i} ∣ Z_{i}} = z_{i} + \frac{d}{d z_{i}} m (z_{i})

$\text{E}\{\delta_i\mid Z_i\}=z_i+\frac{d}{dz_i}m(z_i)$

m (z_{i}) = \int φ (z_{i} - δ_{i}) g (δ_{i}) d δ_{i}

$m(z_i)=\int \varphi(z_i-\delta_i)g(\delta_i)d\delta_i$ mit

φ (.)

$\varphi(.)$ der Standard-Gaußsche ist.

Wenn wir den neuen Schätzer von als was auch immer Sie wählen, um mit zu schätzen $\delta_{i_{\max}}$

γ_{2} (Z) = max {E {δ_{1} ∣ Z_{1}}, E {δ_{2} ∣ Z_{2}}, \dots, E {δ_{N} ∣ Z_{N}}},

$\gamma_2(\mathbf{Z})=\max\{\text{E}\{\delta_1\mid Z_1\},\text{E}\{\delta_2\mid Z_2\},\ldots,\text{E}\{\delta_N\mid Z_N\}\},$

i

$i$

δ_{i_{max}}

$\delta_{i_{\max}}$

γ_{1} (Z)

$\gamma_1(\mathbf{Z})$ , wird die gleiche sein

, wenn die Auswahl basierte auf

i

$i$

basiert. Dies folgt, weil

monoton ist. Wir wissen auch, dass

mit dem Term

gegen Nullschrumpft

γ_{2} (Z)

$\gamma_2(\mathbf{Z})$

γ_{2} (Z)

$\gamma_2(\mathbf{Z})$

Z_{i}

$Z_i$

E {δ_{i} ∣ Z_{i}}

$\text{E}\{\delta_i\mid Z_i\}$

Z_{i}

$Z_i$

, wodurch ein Teil der positiven Vorspannung in

verringert wird. Aber wie können wir daraus schließen, dass Bayes-Schätzer immun gegen Selektionsverzerrungen sind? Ich verstehe es wirklich nicht.

\frac{d}{d z_{i}} m (z_{i})

$\frac{d}{dz_i}m(z_i)$

Z_{i}

$Z_i$

— Chamberlain Foncha
quelle

Wenn Sie eine Behauptung in einem Stück Literatur referenzieren, können Sie bitte eine vollständige Situation und einen Seitenverweis angeben, damit wir den vollständigen Kontext dieser Behauptung lesen können.

— Stellen Sie Monica am

Ist die Definition eines Schätzers als Maximum der Bayes-Schätzer immer noch ein Bayes-Schätzer?

— Xi'an

Beispiel 1 im Papier.

— Chamberlain Foncha

Antworten:

Wie oben beschrieben, besteht das Problem darin, auf den Index und den Wert (i⁰, μ⁰) des größten Mittelwerts einer Stichprobe normaler rvs zu schließen. Was mich in Dawids Präsentation überrascht, ist, dass die Bayes'sche Analyse nicht so viel Bayes'sch klingt. Wenn die gesamte Stichprobe gegeben ist, sollte ein Bayes'scher Ansatz eine posteriore Verteilung auf (i⁰, μ⁰) erzeugen, anstatt Schätzschritten von der Schätzung von i⁰ bis zur Schätzung des zugehörigen Mittelwerts zu folgen. Und falls erforderlich, sollten Schätzer aus der Definition einer bestimmten Verlustfunktion stammen. Wenn stattdessen der größte Punkt in der Stichprobe und nur dieser Punkt seine Verteilung ändert, ärgert mich die Aussage, dass keine Anpassung erforderlich ist, ziemlich.

Die vorherige Modellierung ist auch insofern ziemlich überraschend, als die Prioritäten auf den Mitteln eher gemeinsam als ein Produkt unabhängiger Normalen sein sollten, da diese Mittel verglichen und daher vergleichbar sind. Zum Beispiel scheint ein hierarchischer Prior angemessener zu sein, wobei Ort und Maßstab aus den gesamten Daten geschätzt werden müssen. Herstellen einer Verbindung zwischen den Mitteln ... Ein relevanter Einwand gegen die Verwendung unabhängiger unzulässiger Prioritäten ist, dass der maximale Mittelwert μ⁰ dann kein genau definiertes Maß hat. Ich denke jedoch nicht, dass eine Kritik an einigen Prioren gegenüber anderen ein relevanter Angriff auf dieses "Paradoxon" ist.

— Xi'an
quelle

Mir scheint, dass der gesamte erforderliche Schutz im Prior codiert werden sollte, der alle unbekannten Mittel verbindet. Wenn der Prior große Unterschiede zwischen den Mitteln sehr unwahrscheinlich macht, wird sich dies im hinteren Bereich widerspiegeln, was ihn perfekt macht.

— Frank Harrell

(i, μ)

$(i,\mu)$

δ_{i} \sim N (a, 1)

$\delta_i \sim N(a,1)$

Z_{i} \sim N (δ_{i}, 1)

$Z_i\sim N(\delta_i,1)$

δ_{i}

$\delta_i$

Z_{i}

$Z_i$

δ_{i}

$\delta_i$

E (δ_{i} | Z_{i})

$E(\delta_i|Z_i)$

Z_{i^{0}}

$Z_{i^0}$

Z_{i}

$Z_i$

E (δ_{i^{0}} | Z_{i^{0}})

$E(\delta_{i^0}|Z_{i^0})$

Z_{i}

$Z_i$

E (δ_{i^{0}} | Z_{i^{0}})

$E(\delta_{i^0}|Z_{i^0})$

Z_{i^{0}}

$Z_{i^0}$

i^{0}

$i^0$

E [δ_{i} | Z_{i}]

$\mathbb{E}[\delta_i|Z_i]$

δ_{i}

$\delta_i$

i

$i$

μ_{i}

$\mu_i$ 's makes them dependent actually.

— Xi'an

And any prior is acceptable from a Bayesian viewpoint, for instance a uniform distribution on the index and a hierarchical prior on the

μ_{i}

$\mu_i$ 's.

— Xi'an

Even if a bit counter-intuitive the statement is correct. Assume $i^*=5$ for this experiment, then the posterior for $\mu_5$ is really $N(x_5,\sigma^2)$ . This counter-intuitive fact is a bit similar to Bayes being immune to (secret) early stopping (that is also very counter-intuitive).

The Bayesian reasoning would lead to false conclusions if for each such experiment (imagine your repeat it a few times), only the results for the best variety would be kept. There would be data selection and Bayesian methods are clearly not immune to (secret) data selection. Actually no statistical method is immune to data selection.

If such a selection was done, a complete Bayesian reasoning taking this selection into account would easily correct the illusion.

However the sentence "Bayes estimator are immune to selection Bias" is a bit dangerous. It is easy to imagine situations where "selection" means something else, like for example selection of explanatory variables, or selection of data. Bayes is not clearly immune to this.

— Benoit Sanchez
quelle