Beweis des zentralen Grenzwertsatzes ohne Verwendung charakteristischer Funktionen

Gibt es einen Beweis dafür, dass das CLT keine charakteristischen Funktionen verwendet, eine einfachere Methode?

Vielleicht Tikhomirov oder Steins Methoden?

Etwas Eigenständiges, das Sie einem Universitätsstudenten erklären können (erstes Jahr Mathematik oder Physik) und das weniger als eine Seite umfasst?

mathematical-statistics central-limit-theorem characteristic-function

— Skan
quelle

Ich habe einen solchen elementaren Ansatz unter stats.stackexchange.com/a/3904/919 skizziert . Die Verwendung von Funktionen zur Erzeugung von Kumulanten ist wohl die einfachste Methode: Ihr "einfacher" soll wahrscheinlich "elementarer" lauten.

— whuber

Unter restriktiveren Bedingungen als bei Verwendung charakteristischer Funktionen können Sie stattdessen Momenterzeugungsfunktionen verwenden (tatsächlich war die erste CLT, die ich sah, von dieser Form) - aber die Darstellung ist ziemlich ähnlich.

— Glen_b -Rate State Monica

@Glen_b Ich dachte auch, dass es mit Momenten einfacher sein könnte. Wie auch immer, ich werde die Frage offen lassen, falls jemand anderes eine andere Demonstration veröffentlicht.

— Skan

Als Beweis ist es eigentlich nicht einfacher (der Beweis mit cfs kann in der gleichen Form geschrieben werden wie der Beweis mit mgfs), kann aber für Studenten vorzuziehen sein, die möglicherweise keinen Hintergrund mit Funktionen haben, die

betreffen . Das heißt, Sie können die Einführung neuer Konzepte sparen, aber wenn diese Konzepte bereits vorhanden sind, ist es nicht schwieriger, die entsprechende Aussage mit cfs zu beweisen (obwohl dies allgemeiner ist). Ob dies besser ist, hängt von den Schülern ab, mit denen Sie es zu tun haben.

i

$i$

— Glen_b - Monica

Ich erinnere mich, dass mein Professor für Statistik im ersten Jahr einen visuellen "Beweis" für die CLT lieferte, indem er Stichprobenverteilungen des Mittelwerts mit

unter verschiedenen Wahrscheinlichkeitsmodellen zeigte. Normal zeigte natürlich keine Tendenz, aber Exponential-, Bernoulli- und verschiedene Schwerschwanzverteilungen "abgerundet" visuell auf die bekannte Form pro Zunahme von

n = 10, 100, 1000

$n=10, 100, 1000$

n

$n$

— AdamO

Antworten:

Sie können es mit Steins Methode beweisen, es ist jedoch fraglich, ob der Beweis elementar ist. Die positive Seite von Steins Methode ist, dass Sie eine etwas schwächere Form von Berry Esseen-Grenzen im Wesentlichen kostenlos erhalten. Auch Steins Methode ist nichts weniger als schwarze Magie! Eine Darstellung des Beweises finden Sie in Abschnitt 6 dieses Links . Weitere Beweise für das CLT finden Sie auch im Link.

Hier ist eine kurze Übersicht:

1) Beweisen Sie unter Verwendung einer einfachen Integration durch Teile und der Normalverteilungsdichte, dass für all stetig differenzierbar iff ist verteilt. Es ist einfacher zu zeigen. Normalfall impliziert das Ergebnis und ein bisschen schwieriger, das Gegenteil zu zeigen, aber vielleicht kann es im Glauben genommen werden. $Ef'(A)-Xf(A)=0$ $A$ $N(0,1)$ $A$

2) Allgemeiner, wenn für jedes kontinuierlich differenzierbare mit $Ef(X_n)-X_nf(X_n)\rightarrow 0$ $f$ konvergiert in der Verteilunggegen begrenzt ist. Der Beweis hier ist wieder durch Teilintegration mit einigen Tricks. Insbesondere müssen wir wissen, dass die Konvergenz in der Verteilung äquivalent zu $f,f'$ $X_n$ $N(0,1)$ für alle begrenzten stetigen Funktionen . Fixing , dies wird verwendet, um neu zu formulieren: $Eg(X_n)\rightarrow E g(A)$ $g$ $g$

E g (X_{n}) - E g (A) = E f^{'} (X_{n}) - X_{n} f (X_{n}),

$Eg(X_n)-Eg(A)=Ef'(X_n)-X_nf(X_n),$

wo man mit der grundlegenden ODE-Theorie nach auflöst und dann zeigt, dass nett ist. Wenn wir also ein so schönes , geht das rhs unter der Annahme auf 0 und damit auch die linke Seite. $f$ $f$ $f$

3) Beweisen Sie schließlich den zentralen Grenzwertsatz für wobeiiid mit Mittelwert 0 und Varianz 1 ist. Dies nutzt erneut den Trick in Schritt 2 aus, wobeiwirfür jedeseinso dass: $Y_n:=\frac{X_1+\cdots+X_n}{\sqrt{n}}$ $X_i$ $g$ $f$

E g (X_{n}) - E g (A) = E f^{'} (X_{n}) - X_{n} f (X_{n}) .

$Eg(X_n)-Eg(A)=Ef'(X_n)-X_nf(X_n).$

— Alex R.
quelle

So würde ich es machen, wenn ich in der High School wäre.

Nehmen Sie eine beliebige Wahrscheinlichkeitsverteilung mit der Dichte , erhalten Sie den Mittelwert und die Varianz . Als nächstes approximieren Sie es mit der Zufallsvariablen die die folgende Form hat: wobei die Bernoulli-Zufallsvariable mit dem Parameter $f(x)$ $\mu_x,\sigma_x^2$ $z$

z = μ_{x} - σ_{x} + 2 σ_{x} ξ,

$z=\mu_x-\sigma_x+2\sigma_x\xi,$

ξ

$\xi$

. Sie können sehen, dass

und

p = 1 / 2

$p=1/2$

μ_{z} = μ_{x}

$\mu_z=\mu_x$

σ_{z}^{2} = σ_{x}^{2}

$\sigma_z^2=\sigma_x^2$

Nun können wir die Summe

S_{n} = \sum_{i = 1}^{n} z_{i}

$S_n=\sum_{i=1}^n z_i$

= n (μ_{x} - σ_{x}) + 2 σ_{x} \sum_{i = 1}^{n} ξ_{i}

$=n(\mu_x-\sigma_x)+2\sigma_x\sum_{i=1}^n\xi_i$

Sie können die Binomialverteilung hier erkennen: , wobei $\eta=\sum_{i=1}^n\xi_i$ $\eta\sim B(n,1/2)$

In mancher Hinsicht könnte man also sagen, dass der Bernoulli die ungenaueste Näherung für jede Verteilung ist und sogar zur Normalität konvergiert.

Sie können beispielsweise zeigen, dass die Momente normal sind. Definieren wir einen Blick auf die Variable: $y=(S_n/n-\mu_x)\sqrt n$

y = σ_{x} (- 1 + 2 η / n) \sqrt{n}

$y=\sigma_x(-1+2\eta/n)\sqrt n$

μ_{y} = σ_{x} (- 1 + 2 (n / 2) / n) \sqrt{n} = 0

$\mu_y=\sigma_x(-1+2(n/2)/n)\sqrt n=0$

V a r [y] = σ_{x}^{2} V a r [2 η / n] n = 4 σ_{x}^{2} / n n (1 / 4) = σ_{x}^{2}

$Var[y]=\sigma_x^2Var[2\eta/n] n=4\sigma_x^2/nn(1/4)=\sigma_x^2$

$n\to\infty$

— Aksakal
quelle

Interessant. Ist es möglich, diese Idee in einen vollständigen Beweis zu verwandeln?

— Elvis

@ Elvis, ich habe vor vielen Jahren versucht, wie ich selbst zu denken, und ich habe mich nicht so sehr für Beweise interessiert. Eine Sache, an die ich gedacht habe, ist, die kontinuierliche Verteilung als eine Kombination von

— Bernoullis darzustellen

Was Sie oben geschrieben haben, könnte viel besser sein. Es ist nicht erforderlich, die Verteilung genau zu approximieren: Eine grobe Approximation durch eine Variable mit zwei verschiedenen Werten würde den Job erledigen.

— Elvis

Das heißt, wenn es möglich ist, eine Grenze für die Genauigkeit der normalen Näherung abzuleiten. Ebenso ist die normale Näherung für die ursprüngliche Verteilung mindestens so gut wie für die skalierten Bernoulli. Oder eher etwas Schwächeres, das aber dennoch den Schluss zulässt.

— Elvis