Woher kommt


36

Eine sehr einfache Version des zentralen begrenzten Theorems wie

n((1ni=1nXi)μ) d N(0,σ2)
ist Lindeberg-Lévy CLT. Ich verstehe nicht, warum es einn auf der linken Seite. Und Lyapunov CLT sagt
1sni=1n(Xiμi) d N(0,1)
aber warum nichtsn ? Würde mir jemand sagen, was diese Faktoren sind, wien und1sn ? Wie bekommen wir sie in den Satz?

3
Dies wird unter stats.stackexchange.com/questions/3734 erklärt . Diese Antwort ist lang, weil sie nach "Intuition" fragt. Daraus folgt: "Diese einfache Näherung legt jedoch nahe, wie de Moivre ursprünglich vermutet haben könnte, dass es eine universelle Grenzverteilung gibt, dass sein Logarithmus eine quadratische Funktion ist und dass der richtige Skalierungsfaktor sn proportional zu n .... "
whuber

1
Intuitiv, wenn alle σi=σ dann ist sn=σi2=nσund die 2. Zeile folgt aus der 1. Zeile:
n((1ni=1nXi)μ)=1ni=1n(Xiμ)d N(0,σ2)
dividiere durchσ=snn
1ni=1n(Xiμ)snn=1sni=1n(Xiμi)d N(0,1)
(natürlich ist die Lyapunov-Bedingung, Kombination aus allemσi , eine andere Frage)
Sextus Empiricus

Antworten:


33

Schöne Frage (+1) !!

Sie werden , dass für unabhängige Zufallsvariablen erinnern und Y , V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) und V a r ( a X ) = a 2V a r ( X ) . Die Varianz von n i = 1 X i ist alsoXYVar(X+Y)=Var(X)+Var(Y)Var(aX)=a2Var(X)i=1nXi , und die Varianz von ˉ X = 1i=1nσ2=nσ2istnσ2/n2=σ2/n.X¯=1ni=1nXinσ2/n2=σ2/n

Dies ist für die Varianz . Um eine Zufallsvariable zu standardisieren, dividieren Sie sie durch ihre Standardabweichung. Wie Sie wissen, ist der erwartete Wert von ist μ , so dass die VariableX¯μ

hat den erwarteten Wert 0 und die Varianz 1. Wenn es also zu einem Gaußschen tendiert, muss es das Standard-GaußscheN sein(0,

X¯E(X¯)Var(X¯)=nX¯μσ
. Ihre Formulierung in der ersten Gleichung ist äquivalent. Indem Sie die linke Seite mit σ multiplizieren, setzen Sie die Varianz auf σ 2 .N(0,1)σσ2

In Bezug auf Ihren zweiten Punkt glaube ich, dass die oben gezeigte Gleichung zeigt, dass Sie durch und nicht durch dividieren müssenσ , um die Gleichung zu standardisieren und zu erklären, warum Siesn(den Schätzer vonσ)und nicht √ verwendenσsnσ) .sn

Ergänzung: @whuber schlägt vor, das Warum der Skalierung durch zu diskutieren . Er tut esdort, aber weil die Antwort sehr lang ist, werde ich versuchen, das Wesentliche seiner Argumentation festzuhalten (die eine Rekonstruktion von de Moivres Gedanken ist).n

Wenn Sie eine große Anzahl von +1 und -1 addieren , können Sie die Wahrscheinlichkeit, dass die Summe j ist, durch Elementarzählen approximieren . Das Log dieser Wahrscheinlichkeit ist proportional zu - j 2 / n . Wenn wir also wollen, dass die obige Wahrscheinlichkeit gegen eine Konstante konvergiert, wenn n groß wird, müssen wir einen Normalisierungsfaktor in O ( √) verwendennjj2/nn.O(n)

Mit modernen mathematischen Werkzeugen (post de Moivre) können Sie die oben erwähnte Annäherung erkennen, indem Sie feststellen, dass die gesuchte Wahrscheinlichkeit ist

P(j)=(nn/2+j)2n=n!2n(n/2+j)!(n/2j)!

was wir durch Stirlings Formel approximieren

P(j)nnen/2+jen/2j2nen(n/2+j)n/2+j(n/2j)n/2j=(11+2j/n)n+j(112j/n)nj.

log(P(j))=(n+j)log(1+2j/n)(nj)log(12j/n)2j(n+j)/n+2j(nj)/nj2/n.

Bitte beachten Sie meine Kommentare zu früheren Antworten von Michael C. und Guy.
whuber

Scheint wie die erste Gleichung (LL CLT) s / b ? Das verwirrte mich auch, dass als Varianz auftrat. σ 2n((1ni=1nXi)μ) d N(0,1)σ2
B_Miner

Wenn Sie den Gaußschen Wert mit Mittelwert und Varianz (nicht mit Standardabweichung) parametrisieren, ist die OP-Formel meines Erachtens korrekt.
gui11aume

1
Ahh..Gegeben, dass wenn wir von wir, was vom OP angezeigt wurde ( cancel): nämlich . Aber wir wissen, dass VAR (aX) = a ^ 2Var (X) ist, wobei in diesem Fall a = und Var (X) 1 ist, so dass die Verteilung . ˉ X - E ( ˉ X )X¯E(X¯)Var(X¯)=nX¯μσd N(0,1) σσX¯E(X¯)Var(X¯)σσn((1ni=1nXi)μ)σ2N(0,σ2)
B_Miner

Gui, wenn nicht zu spät, wollte ich sicherstellen, dass ich das richtig hatte. Nehmen wir an, und wir multiplizieren mit einer Konstanten ( ) den erwarteten Wert dieser Menge (dh ), der Null war, ist immer noch Null, da E [aX] = a * E [X] => * 0 = 0. Ist das richtig? X¯E(X¯)Var(X¯)=n(X¯μ)d N(0,1)σn(X¯μ)σ
B_Miner

8

Es gibt eine schöne Theorie, welche Art von Verteilungen Verteilungen von Summen von Zufallsvariablen einschränken können. Die nette Quelle ist das folgende Buch von Petrov, das mir persönlich sehr gut gefallen hat.

Es stellt sich heraus, dass, wenn Sie Grenzen dieses Typs untersuchen, wobei unabhängige Zufallsvariablen sind, die Verteilungen der Grenzen sind nur bestimmte Distributionen.

1ani=1nXnbn,(1)
Xi

Es gibt dann eine Menge Mathematik, die sich zu mehreren Theoremen zusammensetzt, die vollständig charakterisieren, was im Grenzfall passiert. Eines dieser Theoreme geht auf Feller zurück:

Theorem Sei eine Folge von unabhängigen Zufallsvariablen, die Verteilungsfunktion von und eine Folge von positiven Konstanten. Damit{Xn;n=1,2,...}Vn(x)Xnan

max1knP(|Xk|εan)0, for every fixed ε>0

und

supx|P(an1k=1nXk<x)Φ(x)|0

es ist notwendig und ausreichend, dass

k=1n|x|εandVk(x)0 for every fixed ε>0,

an2k=1n(|x|<anx2dVk(x)(|x|<anxdVk(x))2)1

und

an1k=1n|x|<anxdVk(x)0.

Dieser Satz gibt Ihnen dann eine Vorstellung davon, wie aussehen sollte.an

Die allgemeine Theorie in diesem Buch ist so konstruiert, dass die Normierungskonstante in keiner Weise eingeschränkt ist, aber Endsätze, die notwendige und ausreichende Bedingungen angeben, lassen keinen anderen Raum für Normierungskonstanten als .n


4

s repräsentiert die Standardabweichung der Stichprobe für den Stichprobenmittelwert. s ist die Stichprobenvarianz für den Stichprobenmittelwert und ist gleich S / n. Wobei S die Stichprobenschätzung der Populationsvarianz ist. Da s = S / √n ist, erklärt dies, wie √n in der ersten Formel erscheint. Beachten Sie, dass es im Nenner ein σ geben würde, wenn der Grenzwert wärenn2n2n2nn

N (0,1), aber die Grenze wird als N (0, σ ) angegeben. Da S ist eine konsequente Abschätzung von σ in der secnd Gleichung aus der Begrenzung genommen σ verwendet wird.2n


Was ist mit dem anderen (grundlegenderen und wichtigeren) Teil der Frage: Warum und nicht irgendein anderes Maß für die Streuung? sn
whuber

@whuber Das mag zur Diskussion stehen, war aber nicht Teil der Frage. Das OP wollte nur wissen, warum s und √n in der Formel für das CLT erscheinen. Natürlich ist da, weil es für σ konsistent ist und in dieser Form der CLT σ entfernt wird. nn
Michael Chernick

1
Mir ist überhaupt nicht klar, dass vorhanden ist, weil es "konsistent für " ist. Warum würde das nicht auch bedeuten, dass verwendet werden sollte, um Extremwertstatistiken zu normalisieren (was nicht funktionieren würde)? Fehlt mir etwas Einfaches und Selbstverständliches? Und um das OP wiederzugeben , warum nicht verwenden - schließlich ist das für konsistent ! snσsnsnσ
whuber

Der Satz hat, wie gesagt, Konvergenz zu N (0,1), so dass man entweder σ kennen und verwenden muss oder eine konsistente Schätzung davon verwenden muss, die nach dem Satz von Slutsky funktioniert, denke ich. War mir das unklar?
Michael Chernick

Ich glaube nicht, dass Sie unklar waren. Ich denke nur, dass ein wichtiger Punkt fehlen könnte. Schließlich können wir für viele Verteilungen eine einschränkende Normalverteilung erhalten, indem wir den IQR anstelle von verwenden - aber dann ist das Ergebnis nicht so sauber (die SD der einschränkenden Verteilung hängt von der Verteilung ab, mit der wir beginnen). Ich schlage nur vor, dass dies gerufen und erklärt werden sollte. Es ist nicht ganz so offensichtlich für jemanden, der nicht die Intuition hat, die durch 40 Jahre Standardisierung aller Distributionen entwickelt wurde, denen er begegnet! sn
whuber

2

Intuitiv sollten wir erwarten, dass ungefähr gleich ist , wenn für ein ist ; es scheint eine ziemlich vernünftige Erwartung zu sein, obwohl ich es im Allgemeinen nicht für notwendig halte. Der Grund für die in dem ersten Ausdruck ist , dass die Varianz von bis geht wie und so die ist die Varianz so aufzublasen , daß der Ausdruck gleich nur Varianz . Im zweiten Ausdruck ist der Term definiert alsZnN(0,σ2)σ2Var(Zn)σ2nX¯nμ01nnσ2sni=1nVar(Xi)während die Varianz des Zählers wie wächst , so haben wir wieder , daß die Varianz des gesamten Ausdruck eine Konstante ist (ist in diesem Fall).i=1nVar(Xi)1

Grundsätzlich wissen wir, dass mit der Verteilung von etwas "Interessantes" passiert , aber wenn wir es nicht richtig zentrieren und skalieren, können wir es nicht sehen. Ich habe gehört, dass dies manchmal als Notwendigkeit beschrieben wird, das Mikroskop einzustellen. Wenn wir nicht durch sprengen (zB), dann haben wir nur in der Verteilung durch das schwache Gesetz ; Ein interessantes Ergebnis für sich, aber nicht so informativ wie das CLT. Wenn wir mit einem Faktor aufpumpen, der von dominiert wird , erhalten wir immer noch während jeder Faktor der dominiert ˉ X -μX¯n:=1niXiX¯μˉ X n-μ0annX¯nμ0an an( ˉ X n-μ)0annan(X¯nμ)0an an( ˉ X n-μ)ngibt . Es stellt sich heraus, dass genau die richtige Vergrößerung ist, um zu sehen, was in diesem Fall vor sich geht nach dem Gesetz des iterierten Logarithmus).an(X¯nμ)n


4
Eine grundlegendere Frage, die zuerst beantwortet werden sollte, ist, warum die SD zur Messung der Streuung verwendet wird. Warum nicht der absolute zentrale Moment für einen anderen Wert von ? Oder warum nicht der IQR oder einer seiner Verwandten? Sobald dies beantwortet ist, ergeben einfache Eigenschaften der Kovarianz sofort die Abhängigkeit (wie @ Gui11aume kürzlich erklärt hat.) k kthkn
whuber

1
@whuber da stimme ich zu, weshalb ich dies als heuristisch dargestellt habe. Ich bin nicht sicher, ob es einer einfachen Erklärung zugänglich ist, obwohl ich gerne eine hören würde. Für mich bin ich mir nicht sicher, ob ich einen einfacheren, erklärbaren Grund habe, "weil der quadratische Term der relevante Term in der Taylor-Erweiterung der charakteristischen Funktion ist, sobald Sie den Mittelwert abziehen."
Kerl
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.