Woher kommt

36

Eine sehr einfache Version des zentralen begrenzten Theorems wie

\sqrt{n} ((\frac{1}{n} \sum_{i = 1}^{n} X_{i}) - μ) \overset{d}{\to} N (0, σ^{2})

$\sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2)$ ist Lindeberg-Lévy CLT. Ich verstehe nicht, warum es ein

\sqrt{n}

$\sqrt{n}$ auf der linken Seite. Und Lyapunov CLT sagt

\frac{1}{s_{n}} \sum_{i = 1}^{n} (X_{i} - μ_{i}) \overset{d}{\to} N (0, 1)

$\frac{1}{s_n} \sum_{i=1}^{n} (X_i - \mu_i) \ \xrightarrow{d}\ \mathcal{N}(0,\;1)$ aber warum nicht

\sqrt{s_{n}}

$\sqrt{s_n}$ ? Würde mir jemand sagen, was diese Faktoren sind, wie

\sqrt{n}

$\sqrt{n}$ und

\frac{1}{s_{n}}

$\frac{1}{s_n}$ ? Wie bekommen wir sie in den Satz?

central-limit-theorem intuition

— Fliegende Schweine
quelle

3

Dies wird unter stats.stackexchange.com/questions/3734 erklärt . Diese Antwort ist lang, weil sie nach "Intuition" fragt. Daraus folgt: "Diese einfache Näherung legt jedoch nahe, wie de Moivre ursprünglich vermutet haben könnte, dass es eine universelle Grenzverteilung gibt, dass sein Logarithmus eine quadratische Funktion ist und dass der richtige Skalierungsfaktor

s_{n}

$s_n$ proportional zu

\sqrt{n}

$\sqrt{n}$ .... "

— whuber

1

Intuitiv, wenn alle

σ_{i} = σ

$\sigma_i=\sigma$ dann ist

s_{n} = \sqrt{\sum σ_{i}^{2}} = \sqrt{n} σ

$s_n = \sqrt{\sum\sigma_i^2}=\sqrt{n}\sigma$ und die 2. Zeile folgt aus der 1. Zeile:

\sqrt{n} ((\frac{1}{n} \sum_{i = 1}^{n} X_{i}) - μ) = \frac{1}{\sqrt{n}} \sum_{i = 1}^{n} (X_{i} - μ) \overset{d}{\to} N (0, σ^{2})

$\sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg)-\mu\bigg)=\frac{1}{\sqrt{n}}\sum_{i=1}^n \bigg(X_i-\mu\bigg)\xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2)$ dividiere durch

σ = \frac{s_{n}}{\sqrt{n}}

$\sigma = \frac{s_n}{\sqrt{n}}$

\frac{\frac{1}{\sqrt{n}} \sum_{i = 1}^{n} (X_{i} - μ)}{\frac{s_{n}}{\sqrt{n}}} = \frac{1}{s_{n}} \sum_{i = 1}^{n} (X_{i} - μ_{i}) \overset{d}{\to} N (0, 1)

$\frac{\frac{1}{\sqrt{n}}\sum_{i=1}^n \bigg(X_i-\mu\bigg)}{\frac{s_n}{\sqrt{n}}}=\frac{1}{s_n}\sum_{i=1}^{n}(X_i-\mu_i)\xrightarrow{d}\ \mathcal{N}(0,\;1)$ (natürlich ist die Lyapunov-Bedingung, Kombination aus allem $\sigma_i$ , eine andere Frage)

— Sextus Empiricus

33

Schöne Frage (+1) !!

Sie werden , dass für unabhängige Zufallsvariablen erinnern und , und . Die Varianz von ist also $X$ $Y$ $Var(X+Y) = Var(X) + Var(Y)$ $Var(a\cdot X) = a^2 \cdot Var(X)$ $\sum_{i=1}^n X_i$ , und die Varianz von $\sum_{i=1}^n \sigma^2 = n\sigma^2$ ist. $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ $n\sigma^2 / n^2 = \sigma^2/n$

Dies ist für die Varianz . Um eine Zufallsvariable zu standardisieren, dividieren Sie sie durch ihre Standardabweichung. Wie Sie wissen, ist der erwartete Wert von ist , so dass die Variable $\bar{X}$ $\mu$

hat den erwarteten Wert 0 und die Varianz 1. Wenn es also zu einem Gaußschen tendiert, muss es das Standard-Gaußsche

\frac{\bar{X} - E (\bar{X})}{\sqrt{V a r (\bar{X})}} = \sqrt{n} \frac{\bar{X} - μ}{σ}

$\frac{\bar{X} - E\left( \bar{X} \right)}{\sqrt{ Var(\bar{X}) }} = \sqrt{n} \frac{\bar{X} - \mu}{\sigma}$

. Ihre Formulierung in der ersten Gleichung ist äquivalent. Indem Sie die linke Seite mit

multiplizieren, setzen Sie die Varianz auf

.

N (0, 1)

$\mathcal{N}(0,\;1)$

σ

$\sigma$

σ^{2}

$\sigma^2$

In Bezug auf Ihren zweiten Punkt glaube ich, dass die oben gezeigte Gleichung zeigt, dass Sie durch und nicht durch dividieren müssen $\sigma$ , um die Gleichung zu standardisieren und zu erklären, warum Sie(den Schätzer vonund nicht $\sqrt{\sigma}$ $s_n$ $\sigma)$ . $\sqrt{s_n}$

Ergänzung: @whuber schlägt vor, das Warum der Skalierung durch zu diskutieren . Er tut esdort, aber weil die Antwort sehr lang ist, werde ich versuchen, das Wesentliche seiner Argumentation festzuhalten (die eine Rekonstruktion von de Moivres Gedanken ist). $\sqrt{n}$

Wenn Sie eine große Anzahl von +1 und -1 addieren , können Sie die Wahrscheinlichkeit, dass die Summe durch Elementarzählen approximieren . Das Log dieser Wahrscheinlichkeit ist proportional zu . Wenn wir also wollen, dass die obige Wahrscheinlichkeit gegen eine Konstante konvergiert, wenn groß wird, müssen wir einen Normalisierungsfaktor in $n$ $j$ $-j^2/n$ $n$ . $O(\sqrt{n})$

Mit modernen mathematischen Werkzeugen (post de Moivre) können Sie die oben erwähnte Annäherung erkennen, indem Sie feststellen, dass die gesuchte Wahrscheinlichkeit ist

P (j) = \frac{(\binom{n}{n / 2 + j})}{2^{n}} = \frac{n!}{2^{n} (n / 2 + j)! (n / 2 - j)!}

$P(j) = \frac{{n \choose n/2+j}}{2^n} = \frac{n!}{2^n(n/2+j)!(n/2-j)!}$

was wir durch Stirlings Formel approximieren

P (j) \approx \frac{n^{n} e^{n / 2 + j} e^{n / 2 - j}}{2^{n} e^{n} (n / 2 + j)^{n / 2 + j} (n / 2 - j)^{n / 2 - j}} = {(\frac{1}{1 + 2 j / n})}^{n + j} {(\frac{1}{1 - 2 j / n})}^{n - j} .

$P(j) \approx \frac{n^n e^{n/2+j} e^{n/2-j}}{2^n e^n (n/2+j)^{n/2+j} (n/2-j)^{n/2-j} } = \left(\frac{1}{1+2j/n}\right)^{n+j} \left(\frac{1}{1-2j/n}\right)^{n-j}.$

\log (P (j)) = - (n + j) \log (1 + 2 j / n) - (n - j) \log (1 - 2 j / n) \sim - 2 j (n + j) / n + 2 j (n - j) / n \propto - j^{2} / n .

$\log(P(j)) = -(n+j) \log(1+2j/n) - (n-j) \log(1-2j/n) \\ \sim -2j(n+j)/n + 2j(n-j)/n \propto -j^2/n.$

— gui11aume
quelle

Bitte beachten Sie meine Kommentare zu früheren Antworten von Michael C. und Guy.

— whuber

Scheint wie die erste Gleichung (LL CLT) s / b ? Das verwirrte mich auch, dass als Varianz auftrat.

\sqrt{n} ((\frac{1}{n} \sum_{i = 1}^{n} X_{i}) - μ) \overset{d}{\to} N (0, 1)

$\sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;1)$

σ^{2}

$\sigma^2$

— B_Miner

Wenn Sie den Gaußschen Wert mit Mittelwert und Varianz (nicht mit Standardabweichung) parametrisieren, ist die OP-Formel meines Erachtens korrekt.

— gui11aume

1

Ahh..Gegeben, dass wenn wir von wir, was vom OP angezeigt wurde ( cancel): nämlich . Aber wir wissen, dass VAR (aX) = a ^ 2Var (X) ist, wobei in diesem Fall a = und Var (X) 1 ist, so dass die Verteilung .

\frac{\bar{X} - E (\bar{X})}{\sqrt{V a r (\bar{X})}} = \sqrt{n} \frac{\bar{X} - μ}{σ} \overset{d}{\to} N (0, 1)

$\frac{\bar{X} - E\left( \bar{X} \right)}{\sqrt{ Var(\bar{X}) }} = \sqrt{n} \frac{\bar{X} - \mu}{\sigma} \xrightarrow{d}\ \mathcal{N}(0,\;1)$

\frac{\bar{X} - E (\bar{X})}{\sqrt{V a r (\bar{X})}}

$\frac{\bar{X} - E\left( \bar{X} \right)}{\sqrt{ Var(\bar{X}) }}$

σ

$\sigma$

σ

$\sigma$

\sqrt{n} ((\frac{1}{n} \sum_{i = 1}^{n} X_{i}) - μ)

$\sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)$

σ^{2}

$\sigma^2$

N (0, σ^{2})

$\mathcal{N}(0,\;\sigma^2)$

— B_Miner

Gui, wenn nicht zu spät, wollte ich sicherstellen, dass ich das richtig hatte. Nehmen wir an, und wir multiplizieren mit einer Konstanten ( ) den erwarteten Wert dieser Menge (dh ), der Null war, ist immer noch Null, da E [aX] = a * E [X] => * 0 = 0. Ist das richtig?

\frac{\bar{X} - E (\bar{X})}{\sqrt{V a r (\bar{X})}} = \sqrt{n} (\bar{X} - μ) \overset{d}{\to} N (0, 1)

$\frac{\bar{X} - E\left( \bar{X} \right)}{\sqrt{ Var(\bar{X}) }} = \sqrt{n} ({\bar{X} - \mu}) \xrightarrow{d}\ \mathcal{N}(0,\;1)$

σ

$\sigma$

\sqrt{n} (\bar{X} - μ)

$\sqrt{n} ({\bar{X} - \mu})$

σ

$\sigma$

— B_Miner

8

Es gibt eine schöne Theorie, welche Art von Verteilungen Verteilungen von Summen von Zufallsvariablen einschränken können. Die nette Quelle ist das folgende Buch von Petrov, das mir persönlich sehr gut gefallen hat.

Es stellt sich heraus, dass, wenn Sie Grenzen dieses Typs untersuchen, wobei unabhängige Zufallsvariablen sind, die Verteilungen der Grenzen sind nur bestimmte Distributionen.

\frac{1}{a_{n}} \sum_{i = 1}^{n} X_{n} - b_{n}, (1)

$\frac{1}{a_n}\sum_{i=1}^nX_n-b_n, \quad (1)$

X_{i}

$X_i$

Es gibt dann eine Menge Mathematik, die sich zu mehreren Theoremen zusammensetzt, die vollständig charakterisieren, was im Grenzfall passiert. Eines dieser Theoreme geht auf Feller zurück:

Theorem Sei eine Folge von unabhängigen Zufallsvariablen, die Verteilungsfunktion von und eine Folge von positiven Konstanten. Damit $\{X_n;n=1,2,...\}$ $V_n(x)$ $X_n$ $a_n$

max_{1 \leq k \leq n} P (| X_{k} | \geq ε a_{n}) \to 0, for every fixed ε > 0

$\max_{1\le k\le n}P(|X_k|\ge\varepsilon a_n)\to 0, \text{ for every fixed } \varepsilon>0$

und

sup_{x} | P (a_{n}^{- 1} \sum_{k = 1}^{n} X_{k} < x) - Φ (x) | \to 0

$\sup_x\left|P\left(a_n^{-1}\sum_{k=1}^nX_k<x\right)-\Phi(x)\right|\to 0$

es ist notwendig und ausreichend, dass

\sum_{k = 1}^{n} \int_{| x | \geq ε a_{n}} d V_{k} (x) \to 0 for every fixed ε > 0,

$\sum_{k=1}^n\int_{|x|\ge \varepsilon a_n}dV_k(x)\to 0 \text{ for every fixed }\varepsilon>0,$

a_{n}^{- 2} \sum_{k = 1}^{n} (\int_{| x | < a_{n}} x^{2} d V_{k} (x) - {(\int_{| x | < a_{n}} x d V_{k} (x))}^{2}) \to 1

$a_n^{-2}\sum_{k=1}^n\left(\int_{|x|<a_n}x^2dV_k(x)-\left(\int_{|x|<a_n}xdV_k(x)\right)^2\right)\to 1$

und

a_{n}^{- 1} \sum_{k = 1}^{n} \int_{| x | < a_{n}} x d V_{k} (x) \to 0.

$a_n^{-1}\sum_{k=1}^n\int_{|x|<a_n}xdV_k(x)\to 0.$

Dieser Satz gibt Ihnen dann eine Vorstellung davon, wie aussehen sollte. $a_n$

Die allgemeine Theorie in diesem Buch ist so konstruiert, dass die Normierungskonstante in keiner Weise eingeschränkt ist, aber Endsätze, die notwendige und ausreichende Bedingungen angeben, lassen keinen anderen Raum für Normierungskonstanten als . $\sqrt{n}$

— mpiktas
quelle

4

s repräsentiert die Standardabweichung der Stichprobe für den Stichprobenmittelwert. s ist die Stichprobenvarianz für den Stichprobenmittelwert und ist gleich S / n. Wobei S die Stichprobenschätzung der Populationsvarianz ist. Da s = S / √n ist, erklärt dies, wie √n in der ersten Formel erscheint. Beachten Sie, dass es im Nenner ein σ geben würde, wenn der Grenzwert wäre $_n$ $_n$ $^2$ $_n$ $^2$ $_n$ $^2$ $_n$ $_n$

N (0,1), aber die Grenze wird als N (0, σ ) angegeben. Da S ist eine konsequente Abschätzung von σ in der secnd Gleichung aus der Begrenzung genommen σ verwendet wird. $^2$ $_n$

— Michael Chernick
quelle

Was ist mit dem anderen (grundlegenderen und wichtigeren) Teil der Frage: Warum und nicht irgendein anderes Maß für die Streuung?

s_{n}

$s_n$

— whuber

@whuber Das mag zur Diskussion stehen, war aber nicht Teil der Frage. Das OP wollte nur wissen, warum s und √n in der Formel für das CLT erscheinen. Natürlich ist da, weil es für σ konsistent ist und in dieser Form der CLT σ entfernt wird.

_{n}

$_n$

_{n}

$_n$

— Michael Chernick

1

Mir ist überhaupt nicht klar, dass vorhanden ist, weil es "konsistent für " ist. Warum würde das nicht auch bedeuten, dass verwendet werden sollte, um Extremwertstatistiken zu normalisieren (was nicht funktionieren würde)? Fehlt mir etwas Einfaches und Selbstverständliches? Und um das OP wiederzugeben , warum nicht verwenden - schließlich ist das für konsistent !

s_{n}

$s_n$

σ

$\sigma$

s_{n}

$s_n$

\sqrt{s_{n}}

$\sqrt{s_n}$

\sqrt{σ}

$\sqrt{\sigma}$

— whuber

Der Satz hat, wie gesagt, Konvergenz zu N (0,1), so dass man entweder σ kennen und verwenden muss oder eine konsistente Schätzung davon verwenden muss, die nach dem Satz von Slutsky funktioniert, denke ich. War mir das unklar?

— Michael Chernick

Ich glaube nicht, dass Sie unklar waren. Ich denke nur, dass ein wichtiger Punkt fehlen könnte. Schließlich können wir für viele Verteilungen eine einschränkende Normalverteilung erhalten, indem wir den IQR anstelle von verwenden - aber dann ist das Ergebnis nicht so sauber (die SD der einschränkenden Verteilung hängt von der Verteilung ab, mit der wir beginnen). Ich schlage nur vor, dass dies gerufen und erklärt werden sollte. Es ist nicht ganz so offensichtlich für jemanden, der nicht die Intuition hat, die durch 40 Jahre Standardisierung aller Distributionen entwickelt wurde, denen er begegnet!

s_{n}

$s_n$

— whuber

2

Intuitiv sollten wir erwarten, dass ungefähr gleich ist , wenn für ein ist ; es scheint eine ziemlich vernünftige Erwartung zu sein, obwohl ich es im Allgemeinen nicht für notwendig halte. Der Grund für die in dem ersten Ausdruck ist , dass die Varianz von bis geht wie und so die ist die Varianz so aufzublasen , daß der Ausdruck gleich nur Varianz . Im zweiten Ausdruck ist der Term definiert als $Z_n \to \mathcal N(0, \sigma^2)$ $\sigma^2$ $\mbox{Var}(Z_n)$ $\sigma^2$ $\sqrt n$ $\bar X_n - \mu$ $0$ $\frac 1 n$ $\sqrt n$ $\sigma^2$ $s_n$ $\sqrt{\sum_{i = 1} ^ n \mbox{Var}(X_i)}$ während die Varianz des Zählers wie wächst , so haben wir wieder , daß die Varianz des gesamten Ausdruck eine Konstante ist (ist in diesem Fall). $\sum_{i = 1} ^ n \mbox{Var}(X_i)$ $1$

Grundsätzlich wissen wir, dass mit der Verteilung von etwas "Interessantes" passiert , aber wenn wir es nicht richtig zentrieren und skalieren, können wir es nicht sehen. Ich habe gehört, dass dies manchmal als Notwendigkeit beschrieben wird, das Mikroskop einzustellen. Wenn wir nicht durch sprengen (zB), dann haben wir nur in der Verteilung durch das schwache Gesetz ; Ein interessantes Ergebnis für sich, aber nicht so informativ wie das CLT. Wenn wir mit einem Faktor aufpumpen, der von dominiert wird , erhalten wir immer noch während jeder Faktor der dominiert $\bar X_n := \frac 1 n \sum_i X_i$ $\bar X - \mu$ $\sqrt n$ $\bar X_n - \mu \to 0$ $a_n$ $\sqrt n$ $a_n(\bar X_n - \mu) \to 0$ $a_n$ $\sqrt n$ gibt . Es stellt sich heraus, dass genau die richtige Vergrößerung ist, um zu sehen, was in diesem Fall vor sich geht nach dem Gesetz des iterierten Logarithmus). $a_n(\bar X_n - \mu) \to \infty$ $\sqrt n$

— Kerl
quelle

4

Eine grundlegendere Frage, die zuerst beantwortet werden sollte, ist, warum die SD zur Messung der Streuung verwendet wird. Warum nicht der absolute zentrale Moment für einen anderen Wert von ? Oder warum nicht der IQR oder einer seiner Verwandten? Sobald dies beantwortet ist, ergeben einfache Eigenschaften der Kovarianz sofort die Abhängigkeit (wie @ Gui11aume kürzlich erklärt hat.)

k^{th}

$k^\text{th}$

k

$k$

\sqrt{n}

$\sqrt{n}$

— whuber

1

@whuber da stimme ich zu, weshalb ich dies als heuristisch dargestellt habe. Ich bin nicht sicher, ob es einer einfachen Erklärung zugänglich ist, obwohl ich gerne eine hören würde. Für mich bin ich mir nicht sicher, ob ich einen einfacheren, erklärbaren Grund habe, "weil der quadratische Term der relevante Term in der Taylor-Erweiterung der charakteristischen Funktion ist, sobald Sie den Mittelwert abziehen."

— Kerl