Stan versus Gelman-Rubin Definition

Ich habe die Stan-Dokumentation durchgesehen, die hier heruntergeladen werden kann . Besonders interessiert hat mich die Implementierung der Gelman-Rubin-Diagnostik. Das Originalpapier Gelman & Rubin (1992) definiert den potenziellen Skalenreduktionsfaktor (PSRF) wie folgt:

Sei die te Markov-Kette, und es seien insgesamt unabhängige Ketten abgetastet. Sei der Mittelwert aus der ten Kette und der Gesamtmittelwert. Definiere, wobei Und definiere $X_{i,1}, \dots , X_{i,N}$ $i$ $M$ $\bar{X}_{i\cdot}$ $i$ $\bar{X}_{\cdot \cdot}$

W = \frac{1}{M} \sum_{m = 1}^{M} s_{m}^{2},

$W = \dfrac{1}{M} \sum_{m=1}^{M} {s^2_m},$

s_{m}^{2} = \frac{1}{N - 1} \sum_{t = 1}^{N} ({\bar{X}}_{m t} - {\bar{X}}_{m \cdot})^{2} .

$s^2_m = \dfrac{1}{N-1} \sum_{t=1}^{N} (\bar{X}_{m t} - \bar{X}_{m \cdot})^2\,.$

B

$B$

B = \frac{N}{M - 1} \sum_{m = 1}^{M} ({\bar{X}}_{m \cdot} - {\bar{X}}_{\cdot \cdot})^{2} .

$B = \dfrac{N}{M-1} \sum_{m=1}^{M} (\bar{X}_{m \cdot} - \bar{X}_{\cdot \cdot})^2 \,.$

Definiere Die PSRF wird mit geschätzt, wobei wobei .

\hat{V} = (\frac{N - 1}{N}) W + (\frac{M + 1}{M N}) B .

$\hat{V} = \left(\dfrac{N-1}{N} \right)W + \left( \dfrac{M+1}{MN} \right)B\,.$

\sqrt{\hat{R}}

$\sqrt{\hat{R}}$

\hat{R} = \frac{\hat{V}}{W} \cdot \frac{d f + 3}{d f + 1},

$\hat{R} = \dfrac{\hat{V}}{W} \cdot \dfrac{df+3}{df+1}\,,$

d f = 2 \hat{V} / V a r (\hat{V})

$df = 2\hat{V}/Var(\hat{V})$

In der Stan-Dokumentation auf Seite 349 wird der Term mit ignoriert $df$ und der multiplikative Term $(M+1)/M$ . Das ist ihre Formel,

Der Varianzschätzer ist
${\hat{var}}^{+} (θ | y) = \frac{N - 1}{N} W + \frac{1}{N} B .$ $\widehat{\text{var}}^{+}(\theta \, | \, y) = \frac{N-1}{N} W + \frac{1}{N} B\,.$ Schließlich wird die Statistik zur möglichen Größenreduzierung durch $\hat{R} = \sqrt{\frac{{\hat{var}}^{+} (θ | y)}{W}} .$ $\hat{R} = \sqrt{\frac{\widehat{\text{var}}^{+}(\theta \, | \, y) }{W}}\,.$

Soweit ich weiß, geben sie keinen Hinweis auf diese Änderung der Formel und diskutieren sie auch nicht. Normalerweise ist $M$ nicht zu groß und kann oft so niedrig wie $2$ , so dass $(M+1)/M$ nicht ignoriert werden sollte, auch wenn der $df$ Term mit 1 angenähert werden kann.

Woher kommt diese Formel?

EDIT: Ich habe eine teilweise Antwort auf die Frage " Woher kommt diese Formel? " Gefunden , in der das Bayesian Data Analysis-Buch von Gelman, Carlin, Stern und Rubin (zweite Ausgabe) genau dieselbe Formel hat. Das Buch erklärt jedoch nicht, wie / warum es gerechtfertigt ist, diese Ausdrücke zu ignorieren?

— Greenparker
quelle

Es gibt noch keine veröffentlichten Artikel, und die Formel wird sich wahrscheinlich in den nächsten Monaten ändern.

— Ben Goodrich

@BenGoodrich Danke für den Kommentar. Können Sie noch etwas zur Motivation sagen, diese Formel anzuwenden? Und warum genau ändert sich die Formel?

— Greenparker

Die derzeitige R-Hat-Formel ist so, wie sie meistens für den Fall gilt, dass es nur eine Kette gibt. Die kommenden Änderungen betreffen hauptsächlich die Tatsache, dass die zugrunde liegende marginale posteriore Verteilung möglicherweise nicht normal ist oder einen Mittelwert und / oder eine Varianz aufweist.

— Ben Goodrich

@BenGoodrich Ja, ich verstehe, warum STAN Rhat aufteilt. Aber auch in diesem Fall ist , und daher ist die Konstante nicht zu ignorieren.

M = 2

$M = 2$

(M + 1) / M = 3 / 2

$(M+1)/M = 3/2$

— Greenparker

Ich folgte dem spezifischen Link, der für Gelman & Rubin (1992) angegeben wurde, und es hat jedoch wie in den späteren Versionen ersetzt durch bei Brooks & Gelman (1998) und durch bei BDA2 (Gelman et al., 2003) und BDA3 (Gelman et al., 2003). 2013).

\hat{σ} = \frac{n - 1}{n} W + \frac{1}{n} B

$\hat{\sigma} = \frac{n-1}{n}W+ \frac{1}{n}B$

\hat{σ}

$\hat{\sigma}$

{\hat{σ}}_{+}

$\hat{\sigma}_+$

{\hat{v a r}}^{+}

$\widehat{\rm var}^+$

BDA2 und BDA3 (konnten jetzt BDA1 nicht überprüfen) haben eine Übung mit Hinweisen, die zeigen, dass eine unvoreingenommene Schätzung der gewünschten Menge ist. $\widehat{\rm var}^+$

Gelman & Brooks (1998) hat die Gleichung 1.1 die geändert werden kann als Wir können sehen, dass der Effekt des zweiten und dritten Terms für die Entscheidungsfindung vernachlässigbar ist, wenn groß ist. Siehe auch die Diskussion in dem Absatz vor Abschnitt 3.1 in Brooks & Gelman (1998).

\hat{R} = \frac{m + 1}{m} \frac{{\hat{σ}}_{+}}{W} - \frac{n - 1}{m n},

$\hat{R} = \frac{m+1}{m}\frac{\hat{\sigma}_+}{W} - \frac{n-1}{mn},$

\hat{R} = \frac{{\hat{σ}}_{+}}{W} + \frac{{\hat{σ}}_{+}}{W m} - \frac{n - 1}{m n} .

$\hat{R} = \frac{\hat{\sigma}_+}{W} + \frac{\hat{\sigma}_+}{Wm}- \frac{n-1}{mn}.$

n

$n$

Gelman & Rubin (1992) hatten auch den Ausdruck mit df als df / (df-2). Brooks & Gelman (1998) haben einen Abschnitt, der beschreibt, warum diese df-Korrelation falsch ist, und definieren (df + 3) / (df + 1). Der Absatz vor Abschnitt 3.1 in Brooks & Gelman (1998) erklärt, warum (d + 3) / (d + 1) fallengelassen werden kann.

Es scheint, dass Ihre Quelle für die Gleichungen etwas nach Brooks & Gelman (1998) war, wie Sie dort (d + 3) / (d + 1) und Gelman & Rubin (1992) df / df (-2) hatten. Ansonsten haben Gelman & Rubin (1992) und Brooks & Gelman (1998) äquivalente Gleichungen (mit leicht unterschiedlichen Notationen und einigen Begriffen, die unterschiedlich angeordnet sind). BDA2 (Gelman et al., 2003) enthält keine Begriffe mehr . BDA3 (Gelman et al., 2003) und Stan führten die Split-Chain-Version ein. $\frac{\hat{\sigma}_+}{Wm}- \frac{n-1}{mn}$

Meine Interpretation der Arbeiten und Erfahrungen mit verschiedenen Versionen von ist, dass die Terme, die schließlich fallengelassen wurden, ignoriert werden können, wenn groß ist, selbst wenn nicht groß ist. Ich erinnere mich auch vage daran, wie ich vor Jahren mit Andrew Gelman darüber gesprochen habe, aber wenn Sie sicher sein wollen, dass die Geschichte bekannt ist, sollten Sie ihn fragen. $\hat{R}$ $n$ $m$

Normalerweise ist M nicht zu groß und kann oft so niedrig wie 2 sein

Ich hoffe wirklich, dass dies nicht oft der Fall ist. In Fällen, in denen Sie die Split- -Konvergenzdiagnose verwenden möchten , sollten Sie mindestens 4 geteilte Ketten verwenden und daher M = 8 haben. Sie können weniger Ketten verwenden, wenn Sie bereits wissen, dass die Konvergenz und das Mischen in Ihren speziellen Fällen schnell sind. $\hat{R}$

Zusätzlicher Verweis:

Brooks und Gelman (1998). Journal of Computational and Graphical Statistics, 7 (4) 434-455.

— Aki Vehtari
quelle

Ja, es hat die gleiche wie Sie erwähnt haben, aber ihre Statistik ist (siehe die Gleichung oben auf Seite 495 in der offiziellen Version von Stat Science), die den Term einführt, über den ich gesprochen habe. Schauen Sie sich außerdem den Code und die Beschreibung im R-Paket coda an, das seit 1999 die GR-Diagnose hat.

{\hat{σ}}^{2}

$\hat{\sigma}^2$

\hat{R}

$\hat{R}$

({\hat{σ}}^{2} + B / m n) / W * d f_{t e r m}

$(\hat{\sigma}^2 + B/mn)/W * df_{term}$

(m + 1) / m

$(m+1)/m$

— Greenparker,

Ich bin verwirrt. Der Artikel über den Link, den Sie bereitgestellt haben, und der Artikel von Stat Science-Webseiten haben nur die Seiten 457-472. Ich habe es jetzt nicht überprüft, aber vor Jahren und im letzten Jahr, als ich die Coda überprüfte, hatte er nicht die aktuell empfohlene Version.

— Aki Vehtari

Beachten Sie, dass ich meine Antwort bearbeitet habe. Gelman & Brooks (1998) hat diesen (m + 1) / m-Ausdruck deutlicher, und es scheint, dass Sie den letzten Ausdruck verpasst haben, der die Auswirkung von (m + 1) / m-Ausdruck für die Entscheidungsfindung größtenteils aufhebt. Siehe diesen Absatz vor Abschnitt 3.1.

— Aki Vehtari

Tut mir leid, das war ein Tippfehler. Es ist Seite 465, und Gelman und Rubin haben die gleiche exakte Definition wie Brooks und Gelman (die Sie oben angeben). Gleichung 1.1 in Brooks und Gelman ist genau das, was ich auch aufgeschrieben habe (wenn Sie einige Begriffe neu ordnen).

— Greenparker

"Wir können sehen, dass die Auswirkungen des zweiten und dritten Terms für die Entscheidungsfindung vernachlässigbar sind, wenn n groß ist". Sie sagen also, dass der Ausdruck in BDA und damit in STAN davon herrührt, dass diese Terme für großes n im Wesentlichen ignoriert werden.

— Greenparker