Definition der Autokorrelationszeit (für effektive Stichprobengröße)

23

Ich habe in der Literatur zwei Definitionen für die Autokorrelationszeit einer schwach stationären Zeitreihe gefunden:

τ_{a} = 1 + 2 \sum_{k = 1}^{\infty} ρ_{k} versus τ_{b} = 1 + 2 \sum_{k = 1}^{\infty} | ρ_{k} |

$\tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right|$

Dabei ist die Autokorrelation bei Verzögerung . $\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}$ $k$

Eine Anwendung der Autokorrelationszeit besteht darin, die "effektive Stichprobengröße" zu ermitteln: Wenn Sie $n$ Beobachtungen einer Zeitreihe haben und die Autokorrelationszeit $\tau$ , können Sie so tun, als hätten Sie

n_{eff} = \frac{n}{τ}

$n_\text{eff} = \frac{n}{\tau}$

unabhängige Stichproben anstelle von $n$ korrelierten, um den Mittelwert zu ermitteln. Das Schätzen von $\tau$ von Daten ist nicht trivial, es gibt jedoch einige Möglichkeiten, dies zu tun (siehe Thompson 2010 ).

Die Definition ohne absolute Werte, , scheint in der Literatur üblicher zu sein; aber es gibt die Möglichkeit von . Mit R und dem "Coda" -Paket: $\tau_a$ $\tau_a<1$

require(coda)
ts.uncorr <- arima.sim(model=list(),n=10000)         # white noise 
ts.corr <- arima.sim(model=list(ar=-0.5),n=10000)    # AR(1)
effectiveSize(ts.uncorr)                             # Sanity check
    # result should be close to 10000
effectiveSize(ts.corr)
    # result is in the neighborhood of 30000... ???

Die "effectiveSize" -Funktion in "coda" verwendet eine Definition der Autokorrelationszeit , die oben zu äquivalent ist. Es gibt einige andere R - Pakete gibt , die Compute effektive Stichprobengröße oder Autokorrelation Zeit, und alle diejenigen , die ich habe give Ergebnisse versucht konsistent mit diesem: dass ein AR (1) -Prozess mit einem negativen AR - Koeffizienten hat mehr effektive Proben als die korrelierte Zeitfolgen. Das scheint seltsam. $\tau_a$

Offensichtlich kann dies in der Definition der Autokorrelationszeit niemals vorkommen . $\tau_b$

Was ist die korrekte Definition der Autokorrelationszeit? Stimmt etwas nicht mit meinem Verständnis der effektiven Stichprobengrößen? Das oben gezeigte Ergebnis scheint falsch zu sein ... was ist los? $n_\text{eff} > n$

r time-series correlation

— andrewtinka
quelle

Nur um sicherzugehen, dass ich nichts falsch verstanden habe, sollte das nicht anstelle des ?

C o v (X_{t}, X_{t + k})

$Cov(X_t,X_{t+k})$

h

$h$

— Sachinruk

2

Ich interessiere mich für die zweite Definition, dh . Können Sie die Literatur dort bereitstellen, wo Sie sie gefunden haben?

τ_{b}

$\tau_b$

— Harry

17

Erstens ist die angemessene Definition des Begriffs "effektive Stichprobengröße" IMO mit einer ganz bestimmten Frage verbunden. Wenn sind identisch mit dem Mittelwert verteilt und die Varianz 1 der empirische Mittelwert $X_1, X_2, \ldots$ $\mu$ ist ein unverzerrter Schätzer von. Aber was ist mit seiner Varianz? FürunabhängigeVariablen beträgt die Varianz. Für eine schwach stationären Zeitreihen, die Varianz von ist

\hat{μ} = \frac{1}{n} \sum_{k = 1}^{n} X_{k}

$\hat{\mu} = \frac{1}{n} \sum_{k=1}^n X_k$

μ

$\mu$

n^{- 1}

$n^{-1}$

\hat{μ}

$\hat{\mu}$

Die Näherung gilt für ausreichend große

. Wenn wir

, beträgt die Varianz des empirischen Mittels für eine schwach stationäre Zeitreihe ungefähr

, was der gleichen Varianz entspricht, als ob wir

unabhängige Stichproben hätten. Somit ist

eine geeignete Definition, wenn wir nach der Varianz des empirischen Durchschnitts fragen. Es könnte für andere Zwecke ungeeignet sein.

\frac{1}{n^{2}} \sum_{k, l = 1}^{n} cov (X_{k}, X_{l}) = \frac{1}{n} (1 + 2 (\frac{n - 1}{n} ρ_{1} + \frac{n - 2}{n} ρ_{2} + \dots + \frac{1}{n} ρ_{n - 1})) ≃ \frac{τ_{a}}{n} .

$\frac{1}{n^2} \sum_{k, l=1}^n \text{cov}(X_k, X_l) = \frac{1}{n}\left(1 + 2\left(\frac{n-1}{n} \rho_1 + \frac{n-2}{n} \rho_2 + \ldots + \frac{1}{n} \rho_{n-1}\right) \right) \simeq \frac{\tau_a}{n}.$

n

$n$

n_{eff} = n / τ_{a}

$n_{\text{eff}} = n/\tau_a$

n_{eff}^{- 1}

$n_{\text{eff}}^{-1}$

n_{eff}

$n_{\text{eff}}$

n_{eff} = n / τ_{a}

$n_{\text{eff}} = n/\tau_a$

Bei negativer Korrelation zwischen Beobachtungen ist es durchaus möglich, dass die Varianz kleiner als ( ). Dies ist eine bekannte Varianzreduktionstechnik in der Monto-Carlo-Integration: Wenn wir anstelle der Korrelation 0 eine negative Korrelation zwischen den Variablen einführen, können wir die Varianz reduzieren, ohne die Stichprobengröße zu erhöhen. $n^{-1}$ $n_{\text{eff}} > n$

— NRH
quelle

2

Wenn Sie mehr über die Verwendung negativer Korrelationen in der Monte-Carlo-Simulation erfahren möchten, versuchen Sie, "antithetische Variablen" zu googeln. Mehr Infos in den Kursnotizen hier oder hier .

— Andrewtinka

1

siehe http://arxiv.org/pdf/1403.5536v1.pdf

und

https://cran.r-project.org/web/packages/mcmcse/mcmcse.pdf

für eine effektive Probengröße. Ich denke, die alternative Formulierung unter Verwendung des Verhältnisses von Stichprobenvarianz und asymptotischer Markov-Kettenvarianz über den Chargenmittelwert ist ein geeigneterer Schätzer.

— subhadip pal
quelle

4

Könnten Sie den Inhalt dieser Links erweitern? Dies ist nach unseren Maßstäben zu kurz für eine Antwort!

— kjetil b halvorsen