Begrenzung der Verteilung von

Sei $(X_n)$ eine Folge von iid $\mathcal N(0,1)$ Zufallsvariablen. Definiere $S_0=0$ und $S_n=\sum_{k=1}^n X_k$ für $n\geq 1$ . Finden Sie die Grenzverteilung von
$\frac{1}{n} \sum_{k = 1}^{n} | S_{k - 1} | (X_{k}^{2} - 1)$ $\frac1n \sum_{k=1}^{n}|S_{k-1}|(X_k^2 - 1)$

Dieses Problem stammt aus einem Problembuch zur Wahrscheinlichkeitstheorie im Kapitel über den zentralen Grenzwertsatz.

Da $S_{k-1}$ und $X_k$ unabhängig sind, ist $E(|S_{k-1}|(X_k^2 - 1))=0$ und

V (| S_{k - 1} | (X_{k}^{2} - 1)) = E (S_{k - 1}^{2} (X_{k}^{2} - 1)^{2}) = E (S_{k - 1}^{2}) E (X_{k}^{2} - 1)^{2}) = 2 (k - 1)

$V(|S_{k-1}|(X_k^2 - 1)) = E(S_{k-1}^2(X_k^2 - 1)^2)= E(S_{k-1}^2)E(X_k^2 - 1)^2) =2(k-1)$

Beachten Sie, dass die $|S_{k-1}|(X_k^2 - 1)$ sind eindeutig nicht unabhängig. Das Problem stammt aus Shiryaevs Wahrscheinlichkeitsproblemen , die selbst auf dem Lehrbuch desselben Autors basieren. Das Lehrbuch scheint die CLT für korrelierte Variablen nicht abzudecken. Ich weiß nicht, ob sich irgendwo eine stationäre Mischsequenz versteckt ...

Ich habe Simulationen durchgeführt, um ein Gefühl für die Antwort zu bekommen

import numpy as np
import scipy as sc
import scipy.stats as stats
import matplotlib.pyplot as plt

n = 20000 #summation index
m = 2000 #number of samples

X = np.random.normal(size=(m,n))
sums = np.cumsum(X, axis=1)
sums = np.delete(sums, -1, 1)
prods = np.delete(X**2-1, 0, 1)*np.abs(sums)
samples = 1/n*np.sum(prods, axis=1)

plt.hist(samples, bins=100, density=True)
x = np.linspace(-6, 6, 100)
plt.plot(x, stats.norm.pdf(x, 0, 1/np.sqrt(2*np.pi)))
plt.show()

Unten sehen Sie ein Histogramm von $2000$ Proben ( $n=20.000$ ). Es sieht ziemlich normal verteilt aus ...

— Gabriel Romon
quelle

@MartijnWeterings Ich habe dies gepostet, weil ich einige Zeit über das Problem nachgedacht habe und feststecke. Es ist wahrscheinlich

— alles

E (| S_{k - 1} | (X_{k}^{2} - 1)) = 0

$E(|S_{k-1}|(X_k^2 - 1)) = 0$

V (| S_{k - 1} | (X_{k}^{2} - 1)) = E (S_{k - 1}^{2} (X_{k}^{2} - 1)^{2})

$V(|S_{k-1}|(X_k^2 - 1)) = E(S_{k-1}^2(X_k^2 - 1)^2)$

| x |^{2} = x^{2}

$|x|^2=x^2$

x \in R

$x\in \mathbb R$

Das Histogramm in der Simulation stimmt schrecklich mit der Normalverteilung überein. Wenn Sie nicht überzeugt sind, berechnen Sie die Kurtosis.

— whuber

@MartijnWeterings Ja, ich habe eine peinliche Auslassung im Code gemacht. Ich habe es aktualisiert, ebenso wie das Histogramm, das wie ein normales aussieht. Haben Sie eine Vorstellung vom genauen Wert der Varianz?

— Gabriel Romon

Wenn ich die Verteilung simuliere, erhalte ich etwas, das einer Laplace-Verteilung ähnelt. Noch besser scheint ein q-Gausian zu sein (die genauen Parameter, die Sie mithilfe der Theorie finden müssten).

Ich denke, dass Ihr Buch eine Variation der CLT enthalten muss, die sich darauf bezieht (q-verallgemeinerter zentraler Grenzwertsatz, wahrscheinlich in Abschnitt 7.6 Der zentrale Grenzwertsatz für Summen abhängiger Variablen , aber ich kann ihn nicht so nachschlagen wie ich habe das Buch nicht zur Verfügung).

library(qGaussian)
set.seed(1)
Qstore <- c(0) # vector to store result

n <- 10^6  # columns X_i
m <- 10^2  # rows repetitions

pb <- txtProgressBar(title = "progress bar", min = 0,
                     max = 100, style=3)
for (i in 1:100) {  
  # doing this several times because this matrix method takes a lot of memory
  # with smaller numbers n*m it can be done at once

  X <- matrix(rnorm(n*m,0,1),m)
  S <- t(sapply(1:m, FUN = function(x) cumsum(X[x,])))
  S <- cbind(rep(0,m),S[,-n])
  R <- abs(S)*(X^2-1)
  Q <- t(sapply(1:m, FUN = function(x) cumsum(R[x,])))

  Qstore <- c(Qstore,t(Q[,n]))
  setTxtProgressBar(pb, i)
}
close(pb)

# compute histogram 
x <- seq(floor(min(Qstore/n)), ceiling(max(Qstore/n)), 0.2)
h <- hist(Qstore/(n),breaks = x)

# plot simulation
plot( h$mid, h$density, log = "y", xlim=c(-7,7),
      ylab = "log density" , xlab = expression(over(1,n)*sum(abs(S[k-1])*(X[k]^2-1),k==1,n) ) )

# distributions for comparison
lines(x, dnorm(x,0,1),                   col=1, lty=3)      #normal 
lines(x, dexp(abs(x),sqrt(2))/2,         col=1, lty=2)      #laplace
lines(x, qGaussian::dqgauss(x,sqrt(2),0,1/sqrt(2)), col=1, lty=1)      #qgauss

# further plotting
title("10^4 repetitions with n=10^6")
legend(-7,0.6,c("Gaussian", "Laplace", "Q-Gaussian"),col=1, lty=c(3,2,1),cex=0.8)

— Sextus Empiricus
quelle

In Bezug auf den Inhalt des Lehrbuchs sehen Sie es am besten selbst: Band 1 , Band 2 . Das Problem sollte nur Material erfordern, das in Kapitel 3.4

— Gabriel Romon

@ GabrielRomon vielen Dank für diese Links. Wenn ich es von meinem Telefon aus betrachte, konnte ich nichts über die q-Gaußschen oder andere einschränkende Verteilungen finden, die keine Normalverteilung sind. Entweder hat die Verteilung eine sehr langsame Konvergenz n >> 10 ^ 6, bevor wir sie sehen , oder die Frage passt nicht zum Kapitel (stammt sie aus dem Buch, ich konnte die Frage auch nicht finden?). Ein Diagramm der Momente höherer Ordnung (als Funktion von n) könnte besser zeigen, ob eine Konvertierung noch stattfinden könnte, aber ich denke, dass dies kein typischer CLT-Fall ist.

— Sextus Empiricus

Dies ist Problem 3.4.14 im Problembuch .

— Gabriel Romon