Welche intuitive Erklärung gibt es für den zentralen Grenzwertsatz?


144

In verschiedenen Kontexten wird der zentrale Grenzwertsatz herangezogen , um die statistische Methode zu rechtfertigen , die wir anwenden möchten (z. B. Annäherung der Binomialverteilung an eine Normalverteilung). Ich verstehe die technischen Details, warum der Satz wahr ist, aber mir ist gerade eingefallen, dass ich die Intuition hinter dem zentralen Grenzwertsatz nicht wirklich verstehe.

Was ist die Intuition hinter dem zentralen Grenzwertsatz?

Laienerklärungen wären ideal. Wenn technische Details benötigt werden, gehen Sie bitte davon aus, dass ich die Konzepte von PDF, CDF, Zufallsvariablen usw. verstehe, aber keine Kenntnisse über Konvergenzkonzepte, charakteristische Funktionen oder irgendetwas, das mit Maßtheorie zu tun hat.


8
Gute Frage, obwohl meine unmittelbare Reaktion, unterstützt durch meine begrenzte Erfahrung im Unterrichten, ist, dass die CLT für die meisten Menschen anfangs überhaupt nicht intuitiv ist. Wenn überhaupt, ist es nicht intuitiv!
am

2
@onestop AMEN! Betrachtet man die Binomialverteilung mit p = 1/2, während n zunimmt, lauert die CLT - aber die Intuition dafür ist mir immer entgangen.
Ronaf

2
Ähnliche Frage mit ein paar schönen Ideen: stats.stackexchange.com/questions/643/…

1
Keine Erklärung, aber diese Simulation kann hilfreich sein, um sie zu verstehen.
David Lane

Antworten:


119

Ich entschuldige mich im Voraus für die Länge dieses Beitrags: Es ist etwas beunruhigt, dass ich ihn überhaupt öffentlich herausgebe, da das Durchlesen einige Zeit und Aufmerksamkeit in Anspruch nimmt und zweifelsohne typografische Fehler und Fehlintervalle aufweist. Aber hier ist es für diejenigen, die sich für das faszinierende Thema interessieren, in der Hoffnung, dass es Sie ermutigt, einen oder mehrere der vielen Teile des CLT zu identifizieren, um weitere Antworten auf Ihre eigenen Fragen zu erhalten.


Die meisten Versuche, die CLT zu "erklären", sind Illustrationen oder nur Wiederholungen, die bestätigen, dass sie wahr sind. Eine wirklich durchdringende, korrekte Erklärung müsste eine Menge Dinge erklären.

Bevor wir weiter darauf eingehen, wollen wir uns klar machen, was die CLT sagt. Wie Sie alle wissen, gibt es Versionen, die sich in ihrer Allgemeinheit unterscheiden. Der gemeinsame Kontext ist eine Folge von Zufallsvariablen, bei denen es sich um bestimmte Arten von Funktionen in einem gemeinsamen Wahrscheinlichkeitsraum handelt. Für intuitive Erklärungen, die rigoros bleiben, finde ich es hilfreich, sich einen Wahrscheinlichkeitsraum als eine Box mit unterscheidbaren Objekten vorzustellen. Es ist egal, was diese Objekte sind, aber ich werde sie "Tickets" nennen. Wir machen eine "Beobachtung" einer Schachtel, indem wir die Karten gründlich mischen und eine herausziehen; Dieses Ticket ist die Beobachtung. Nachdem wir es für eine spätere Analyse aufgezeichnet haben, senden wir es an die Box zurück, sodass sein Inhalt unverändert bleibt. Eine "Zufallsvariable" ist im Grunde eine Zahl, die auf jedes Ticket geschrieben ist.

Im Jahr 1733 betrachtete Abraham de Moivre den Fall einer einzelnen Box, in der die Nummern auf den Tickets nur Nullen und Einsen sind ("Bernoulli-Versuche"), wobei einige von jeder Nummer vorhanden waren. Er stellte sich physikalisch unabhängige Beobachtungen vor, die eine Folge von Werten x 1 , x 2 , ... , x n ergaben , die alle null oder eins sind. Die Summe dieser Werte ist y n = x 1 + x 2 + + x nnx1,x2,,xnyn=x1+x2++xnist zufällig, weil die Terme in der Summe sind. Wenn wir diesen Vorgang also mehrmals wiederholen könnten, würden verschiedene Summen (ganze Zahlen von bis n ) mit verschiedenen Häufigkeiten auftreten - Proportionen der Gesamtsumme. (Siehe die folgenden Histogramme.)0n

Nun würde man erwarten - und es ist wahr - dass für sehr große Werte von alle Frequenzen ziemlich klein wären. Wenn wir so mutig (oder dumm) wären, zu versuchen, "ein Limit zu nehmen" oder " n auf gehen zu lassen ", würden wir richtig schließen, dass sich alle Frequenzen auf 0 reduzieren . Aber wenn wir einfach ein Histogramm zeichnen die Frequenzen, ohne dafür zu zahlen keine Aufmerksamkeit auf , wie ihre Achsen gekennzeichnet sind, sehen wir , dass die Histogramme für große n beginnen alle gleich aussehen: in gewissem Sinne diese Histogramme eine Grenze nähern , auch wenn die Frequenzen selbst gehen alle auf Null.nn0n

Histogramme

Diese Histogramme zeigen die Ergebnisse der mehrmaligen Wiederholung des Verfahrens zur Ermittlung von . n ist die "Anzahl der Versuche" in den Titeln.ynn

Die Einsicht hier ist, zuerst das Histogramm zu zeichnen und später seine Achsen zu beschriften . Mit großem deckt das Histogramm einen großen Wertebereich ab, der um n / 2 (auf der horizontalen Achse) zentriert ist, und ein verschwindend kleines Intervall von Werten (auf der vertikalen Achse), da die einzelnen Frequenzen ziemlich klein werden. Das Einpassen dieser Kurve in den Zeichenbereich erforderte daher sowohl ein Verschieben als auch ein erneutes Skalieren des Histogramms. Die mathematische Beschreibung hierfür ist, dass wir für jedes n einen zentralen Wert m n (nicht unbedingt eindeutig!) Wählen können, um das Histogramm und einen Skalenwert s n zu positionierennn/2nmnsn(Nicht unbedingt einzigartig!), damit es in die Achsen passt. Dies kann mathematisch erfolgen, indem zu z n = ( y n - m n ) / s n geändert wird .ynzn=(ynmn)/sn

Denken Sie daran, dass ein Histogramm die Frequenzen durch Bereiche zwischen ihm und der horizontalen Achse darstellt. Die eventuelle Stabilität dieser Histogramme für große Werte von sollte daher in Bezug auf die Fläche angegeben werden. n Wählen Sie also beliebiges Intervall von Werten aus, z. B. von a bis b > a, und verfolgen Sie mit zunehmendem Wert n den Bereich des Teils des Histogramms von z n , der sich horizontal über das Intervall erstreckt ( a , b ) . Die CLT gibt mehrere Werte an Dinge:ab>anzn(a,b]

  1. Egal was und b sind,ab wenn wir die Sequenzen und s n angemessen auswählen (in einer Weise, die nicht von a oder b abhängt ), nähert sich dieser Bereich tatsächlich einer Grenze, wenn n groß wird.mnsnabn

  2. Die Sequenzen und s n können auf eine Weise gewählt werden, die nur von n , dem Durchschnitt der Werte in der Box und einem gewissen Maß für die Streuung dieser Werte abhängt - aber von nichts anderem -, so dass unabhängig davon, was sich in der Box befindet In der Box ist das Limit immer gleich. (Diese Universalitätseigenschaft ist erstaunlich.)mnsnn

  3. Speziell dieser Bereich begrenzt , ist die Fläche unter der Kurve zwischenaundb: Dies ist die Formel dieses universellen Grenzhistogramms.y=exp(z2/2)/2πab

    Die erste Verallgemeinerung des CLT fügt hinzu,

  4. Wenn das Kästchen zusätzlich zu Nullen und Einsen Zahlen enthalten kann, gelten genau dieselben Schlussfolgerungen (vorausgesetzt, die Anteile extrem großer oder kleiner Zahlen im Kästchen sind nicht "zu groß", ein Kriterium, das eine präzise und einfache quantitative Aussage enthält). .

    Die nächste Verallgemeinerung, und vielleicht die erstaunlichste, ersetzt diese einzelne Schachtel mit Tickets durch eine bestellte, unendlich lange Reihe von Schachteln mit Tickets. Jede Box kann unterschiedliche Nummern in unterschiedlichen Anteilen auf ihren Tickets haben. Die Beobachtung erfolgt durch Ziehen eines Tickets aus der ersten Schachtel, x 2 aus der zweiten Schachtel und so weiter.x1x2

  5. Genau die gleichen Schlussfolgerungen gelten, sofern der Inhalt der Kästchen "nicht zu unterschiedlich" ist (es gibt mehrere präzise, ​​aber unterschiedliche quantitative Charakterisierungen dessen, was "nicht zu unterschiedlich" bedeutet; sie ermöglichen einen erstaunlichen Spielraum).

Diese fünf Behauptungen müssen zumindest erklärt werden. Es gibt mehr. In allen Anweisungen sind mehrere interessante Aspekte des Setups enthalten. Zum Beispiel,

  • Was ist das Besondere an der Summe ? Warum haben wir keine zentralen Grenzwertsätze für andere mathematische Zahlenkombinationen wie ihr Produkt oder ihr Maximum? (Es hat sich herausgestellt, dass dies der Fall ist, aber sie sind weder ganz so allgemein noch haben sie immer eine so klare und einfache Schlussfolgerung, es sei denn, sie können auf die CLT reduziert werden.) Die Sequenzen von und s n sind nicht eindeutig, aber sie sind fast einzigartig in dem Sinne, dass sie schließlich die Erwartung der Summe von n Tickets und die Standardabweichung der Summe (die in den ersten beiden Aussagen der CLT gleich √ ist) approximieren müssenmnsnn mal die Standardabweichung der Box). n

    Die Standardabweichung ist ein Maß für die Streuung von Werten, aber keineswegs das einzige und auch nicht das "natürlichste", weder historisch noch für viele Anwendungen. (Viele Menschen würden zum Beispiel so etwas wie eine absolute Abweichung vom Median wählen .)

  • Warum erscheint die SD so wesentlich?

  • Betrachten Sie die Formel für das Grenzhistogramm: Wer hätte erwartet, dass es eine solche Form annimmt? Es heißt, der Logarithmus der Wahrscheinlichkeitsdichte sei eine quadratische Funktion. Warum? Gibt es eine intuitive oder klare, überzeugende Erklärung dafür?


Ich gebe zu, dass ich nicht in der Lage bin, das endgültige Ziel zu erreichen, Antworten zu liefern, die einfach genug sind, um Srikants herausfordernde Kriterien für Intuitivität und Einfachheit zu erfüllen, aber ich habe diesen Hintergrund in der Hoffnung skizziert, dass andere inspiriert werden könnten, einige der vielen Lücken zu füllen. Ich denke, eine gute Demonstration muss sich letztendlich auf eine elementare Analyse stützen, wie Werte zwischen und β n = b s n + m n bei der Bildung der Summe x 1 + x 2 + entstehen können . + x nαn=asn+mnβn=bsn+mnx1+x2++xn. Zurück zu der Single-Box-Version des CLT ist der Fall einer symmetrischen Verteilung einfacher zu handhaben: Der Median entspricht dem Mittelwert, sodass die 50% ige Chance besteht, dass kleiner als der Mittelwert der Box und die 50% ige Chance ist dass x i größer sein wird als sein Mittelwert. Außerdem sollten die positiven Abweichungen vom Mittelwert die negativen Abweichungen im Mittelwert ausgleichen , wenn n ausreichend groß ist. (Dies erfordert eine sorgfältige Begründung, nicht nur das Winken von Hand.) Daher sollten wir uns in erster Linie um das Zählen der Anzahl positiver und negativer Abweichungen kümmern und uns nur zweitrangig um ihre Größe kümmern .xixin (Von all den Dingen, die ich hier geschrieben habe, ist dies möglicherweise die nützlichste, um eine Vorstellung davon zu bekommen, warum die CLT funktioniert. Die technischen Voraussetzungen, die erforderlich sind, um die Verallgemeinerungen der CLT wahr werden zu lassen, sind im Wesentlichen verschiedene Möglichkeiten, um die Möglichkeit auszuschließen, dass seltene große Abweichungen stören das Gleichgewicht genug, um das Auftreten des Grenzhistogramms zu verhindern.)

Dies zeigt bis zu einem gewissen Grad, warum die erste Verallgemeinerung des CLT nichts aufdeckt, was nicht in der ursprünglichen Bernoulli-Testversion von de Moivre enthalten war.

An diesem Punkt sieht es so aus, als ob es nichts anderes gibt, als ein wenig zu rechnen : Wir müssen die Anzahl der unterschiedlichen Arten zählen, in denen sich die Anzahl der positiven Abweichungen vom Mittelwert von der Anzahl der negativen Abweichungen um einen vorgegebenen Wert , wobei offenbar k eines von - n , - n + 2 , ... , n - 2 , n ist . Aber weil verschwindend kleine Fehler im Limit verschwinden, müssen wir nicht genau zählen; wir müssen nur die Zählungen annähern. Zu diesem Zweck reicht es aus, das zu wissenkkn,n+2,,n2,n

The number of ways to obtain k positive and nk negative values out of n

gleich n-k+1k

mal die Anzahl der Wege zu bekommen k-1 positiv und n-k+1 negative Werte.

(Das ist ein perfektes elementares Ergebnis, deshalb werde ich mich nicht darum kümmern, die Begründung aufzuschreiben.) Die maximale Frequenz tritt auf, wenn so nahe wie möglich an n / 2 liegt (auch elementar). Schreiben wir m = n / 2 . Dann wird relativ zur Maximalfrequenz die Frequenz von m + j + 1 positiven Abweichungen ( j 0 ) durch das Produkt geschätztkn/2m=n/2m+j+1j0

m+1m+1mm+2m-j+1m+j+1

=11/(m+1)1+1/(m+1)12/(m+1)1+2/(m+1)1j/(m+1)1+j/(m+1).

135 Jahre bevor de Moivre schrieb, erfand John Napier Logarithmen, um die Multiplikation zu vereinfachen. Lassen Sie uns dies nutzen. Mit der Näherung

log(1x1+x)2x,

Wir finden, dass das Log der relativen Häufigkeit ungefähr ist

2/(m+1)4/(m+1)2j/(m+1)=j(j+1)m+1j2m.

Da der kumulative Fehler proportional zu , sollte dies gut funktionieren, vorausgesetzt, j 4 ist im Verhältnis zu m 3 klein . Dies deckt einen größeren Wertebereich von j ab, als benötigt wird. (Es reicht aus, wenn die Approximation für j nur in der Größenordnung von funktioniertj4/m3j4m3jj die asymptotisch ist viel kleiner alsm 3 / 4 .)mm3/4


Es ist klar, dass viel mehr Analysen dieser Art vorgelegt werden sollten, um die anderen Behauptungen in der CLT zu rechtfertigen, aber mir gehen Zeit, Raum und Energie aus und ich habe wahrscheinlich 90% der Leute verloren, die damit begonnen haben, dies trotzdem zu lesen. Diese einfache Annäherung lässt jedoch vermuten, dass de Moivre ursprünglich vermutet hatte, dass es eine universelle Grenzverteilung gibt, dass sein Logarithmus eine quadratische Funktion ist und dass der richtige Skalierungsfaktor proportional zu √ sein musssn (weilj2/m=2j2/n=2(j/n). j2/m=2j2/n=2(j/n)2 Es ist schwer vorstellbar, wie diese wichtige quantitative Beziehung erklärt werden könnte, ohne irgendeine Art von mathematischer Information und Argumentation aufzurufen. Alles andere würde die genaue Form der Grenzkurve zu einem völligen Rätsel machen.


5
+1 Es wird einige Zeit dauern, bis ich deine Antwort verstanden habe. Ich gebe zu, dass es fast unmöglich sein kann, innerhalb der von mir auferlegten Grenzen nach einer Intuition für das CLT zu fragen.

2
Vielen Dank, dass Sie sich die Zeit genommen haben, dies zu schreiben. Es ist die hilfreichste Darstellung der CLT, die ich gesehen habe und die auch mathematisch sehr gut zugänglich ist.
Jeremy Radcliff

1
Ja, ziemlich dicht ... so viele Fragen. Wie hat das erste Histogramm 2 Balken (es gab nur 1 Versuch!); Kann ich das einfach ignorieren? Und die Konvention ist normalerweise, horizontale Lücken zwischen Balken eines Histogramms zu vermeiden, oder? (weil, wie Sie sagen, Fläche wichtig ist und die Fläche schließlich über eine kontinuierliche (dh keine Lücken) Domäne berechnet wird)? Also werde ich die Lücken auch ignorieren ...? Sogar ich hatte Lücken, als ich zum ersten Mal versuchte, es zu verstehen :)
Die rote Erbse

1
@TheRed Vielen Dank für Ihre Fragen. Ich habe den ersten Teil dieses Beitrags bearbeitet, um diese Punkte etwas klarer zu machen.
whuber

4
Ach ja, ich habe "Anzahl der Versuche = =" Beobachtungen "" mit "Anzahl der Wiederholungen (dieses gesamte Verfahren)" verwechselt . Wenn ein Ticket also nur den a-Wert der beiden Werte 0 oder 1 haben kann und Sie nur ein Ticket beobachten , kann die Summe der Werte dieser Tickets nur eines von zwei Dingen sein: 0 oder 1 . Daher hat Ihr erstes Histogramm zwei Balken. Darüber hinaus sind diese Balken ungefähr gleich hoch, da wir erwarten, dass 0 und 1 in gleichen Anteilen auftreten. n
Die rote Erbse

27

Die schönste Animation, die ich kenne: http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

8 horizontale Schichten von gleich beabstandeten Stiften, jede Schicht versetzt, ergeben ein Hindernis im Pachinko / Flipper-Stil für Kugeln, die durch diese Stifte fallen.  Jeder Ball fällt am Boden und wenn sich die Bälle stapeln, nähert sich ihre Höhe einem Umriss der Gaußschen Kurve.  Dies zeigt, dass die Summe vieler unabhängiger zufälliger Ereignisse (der Schichten) zu einer Gaußschen Verteilung der Ergebnisse (der Höhe der gestapelten Kugeln) führt.

Die einfachsten Wörter, die ich gelesen habe: http://elonen.iki.fi/articles/centrallimit/index.de.html

Wenn Sie die Ergebnisse dieser zehn Würfe zusammenfassen, ist das, was Sie erhalten, wahrscheinlich näher an 30-40 als das Maximum 60 (alle Sechser) oder andererseits das Minimum 10 (alle Sechser).

Der Grund dafür ist, dass Sie die Mittelwerte auf viel mehr verschiedene Arten als die Extreme erhalten können. Beispiel: Wenn zwei Würfel geworfen werden: 1 + 6 = 2 + 5 = 3 + 4 = 7, aber nur 1 + 1 = 2 und nur 6 + 6 = 12.

Das heißt: Auch wenn beim Werfen eines Würfels eine der sechs Zahlen gleich wahrscheinlich ist, sind die Extreme in Summe mehrerer Würfel weniger wahrscheinlich als Mittelwerte.


20

Intuition ist eine schwierige Sache. Noch kniffliger ist es, wenn die Theorie in unseren Händen hinter unserem Rücken liegt.

Bei der CLT dreht sich alles um winzige, unabhängige Störungen. "Summen" im Sinne der Stichprobe bedeuten "winzig" im Sinne einer endlichen Varianz (der Bevölkerung) und "Störungen" im Sinne eines Plus / Minus um einen zentralen (Bevölkerungs-) Wert.

Für mich ist das Gerät, das die Intuition am unmittelbarsten anspricht, die Quincunx oder "Galton Box", siehe Wikipedia (für "Bean Machine"?). Die Idee ist, einen winzigen kleinen Ball über das Gesicht eines Bretts zu rollen, das mit einem Gitter geschmückt ist von gleich beabstandeten Stiften. Auf dem Weg nach unten lenkt der Ball nach rechts und links (... zufällig, unabhängig) und sammelt sich am Boden. Im Laufe der Zeit sehen wir eine schöne glockenförmige Hügelform direkt vor unseren Augen.

Das CLT sagt dasselbe. Es ist eine mathematische Beschreibung dieses Phänomens (genauer gesagt, der Quincunx ist ein physikalischer Beweis für die normale Annäherung an die Binomialverteilung). Laut CLT verhält sich der Stichprobenmittelwert (richtig skaliert) genau so, wie der kleine Ball, der über das Gesicht von springt, solange sich unsere Bevölkerung nicht übermäßig schlecht benimmt (dh wenn die Enden der PDF-Datei dünn genug sind) Der Quincunx: Manchmal fällt er nach links ab, manchmal fällt er nach rechts ab, aber meistens landet er mittig in einer schönen Glockenform.

Die Majestät des CLT (für mich) ist, dass die Form der zugrunde liegenden Bevölkerung keine Rolle spielt. Die Form spielt nur insofern eine Rolle, als sie die Wartezeit (im Sinne der Stichprobengröße) festlegt.


17

Eine Beobachtung bezüglich des CLT kann die folgende sein. Wenn du eine Summe hast vieler zufälliger Komponenten haben und eine "kleiner als gewöhnlich" ist, wird dies meistens dadurch ausgeglichen, dass einige der anderen Komponenten "größer als gewöhnlich" sind. . Mit anderen Worten, negative Abweichungen und positive Abweichungen von den Komponentenmitteln gleichen sich in der Summation aus. Persönlich habe ich keine klare Vorstellung, warum genau die verbleibenden Abweichungen eine Verteilung bilden, die umso normaler aussieht, je mehr Begriffe Sie haben.

S=X1+X2++Xn

Es gibt viele Versionen des CLT, einige stärker als andere, einige mit lockeren Bedingungen wie einer moderaten Abhängigkeit zwischen den Begriffen und / oder nicht identischen Verteilungen für die Begriffe. Im einfachsten zu beweisen Versionen der CLT wird der Nachweis über die Momenterzeugende Funktion basiert in der Regel (oder Laplace-Stieltjes - Transformation oder eine andere der Dichte entsprechende Transformation) der Summe . Wenn Sie dies als Taylor-Erweiterung schreiben und nur den dominantesten Begriff beibehalten, erhalten Sie die momenterzeugende Funktion der Normalverteilung. Für mich persönlich ergibt sich die Normalität aus einer Reihe von Gleichungen, und ich kann keine weitere Intuition liefern.S

Es sollte jedoch beachtet werden , dass die Verteilung der Summe, nie wirklich ist normal verteilt, noch hat die CLT behauptet , dass es sein würde. Wenn endlich ist, besteht noch ein gewisser Abstand zur Normalverteilung und wenn n =n sowohl der Mittelwert als auch die Varianz ebenfalls unendlich. Im letzteren Fall könnte man den Mittelwert der unendlichen Summe nehmen, aber dann erhält man eine deterministische Zahl ohne jegliche Varianz, die kaum als "normalverteilt" bezeichnet werden kann.n=

Dies kann bei praktischen Anwendungen des CLT zu Problemen führen. In der Regel, wenn Sie an der Verteilung von S / n interessiert sindS/n Nähe des Zentrums , funktioniert CLT einwandfrei. Die Konvergenz zum Normalen ist jedoch nicht überall einheitlich , und je weiter Sie sich vom Zentrum entfernen, desto mehr Begriffe benötigen Sie für eine vernünftige Annäherung.

Bei aller "Heiligkeit" des zentralen Grenzwertsatzes in der Statistik werden seine Grenzen oft nur allzu leicht übersehen. Im Folgenden gebe ich zwei Folien aus meinem Kurs, in denen ich darauf hinweise, dass CLT in jedem praktischen Anwendungsfall in den Schwänzen völlig versagt. Leider verwenden viele Menschen CLT speziell, um die Schwanzwahrscheinlichkeiten wissentlich oder auf andere Weise abzuschätzen.

Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben


5
Dies ist eine großartige materielle und kluge Beratung. Ich kann es leider nicht gutheißen, weil die Behauptungen in "Diese Normalität ist ein mathematisches Artefakt und ich denke, es ist nicht nützlich, nach einer tieferen Wahrheit oder Intuition dahinter zu suchen" zutiefst beunruhigend sind. Sie scheinen darauf hinzudeuten, dass (1) wir uns nicht auf Mathematik verlassen sollten, um uns theoretisch zu helfen, und (2) es keinen Grund gibt, die Mathematik überhaupt zu verstehen. Ich hoffe, dass andere Beiträge in diesem Thread bereits einen großen Beitrag dazu leisten, die zweite Behauptung zu widerlegen. Das erste ist so widersprüchlich, dass es kaum einer weiteren Analyse bedarf.
whuber

2
@whuber. Du hast recht, ich bin vielleicht nicht in meiner Liga. Ich werde bearbeiten.
StijnDeVuyst

3
Vielen Dank, dass Sie den problematischen Teil noch einmal überdenken, und eine große +1 für den Rest.
whuber

7

Diese Antwort hofft, mit einfachen Rechentechniken (Taylor-Erweiterung der Ordnung 3) eine intuitive Bedeutung des zentralen Grenzwertsatzes zu geben. Hier ist der Umriss:

  1. Was der CLT sagt
  2. Ein intuitiver Beweis der CLT mit einfachen Berechnungen
  3. Warum die Normalverteilung?

Wir werden ganz am Ende die Normalverteilung erwähnen; denn die Tatsache, dass die Normalverteilung irgendwann auftaucht, trägt nicht viel Intuition.

1. Was sagt der zentrale Grenzwertsatz? Mehrere Versionen des CLT

Es gibt mehrere gleichwertige Versionen des CLT. Die Lehrbuchaussage der CLT besagt, dass für jedes reelle X und jede Folge von unabhängigen Zufallsvariablen X1,,Xn mit dem Mittelwert Null und der Varianz 1, Um zu verstehen, wasan der CLTuniversellundintuitiv ist, lassen Sie uns die Grenze für einen Moment vergessen. Die obige Aussage besagt, dass wennX1. ,,Xn undZ1,,Znsind zwei Folgen von unabhängigen Zufallsvariablen mit jeweils Null-Mittelwert und Varianz 1, dann E[f(X1++Xn

P(X1++XnnX)n+-Xe-t2/22πdt.
X1.,,XnZ1,,Zn für jede Indikatorfunktionfder Form, für irgendein festes realesx, f(t)={1, wenn t<x0, wenn tx. Die vorherige Anzeige zeigt, dass die Grenze unabhängig von den jeweiligen Verteilungen vonX1,,XnundZ1,,Zn gleich ist
E[f(X1++Xnn)]-E[f(Z1++Znn)]n+0
fX
f(t)={1 wenn t<x0 if tx.
X1,,XnZ1,,Znvorausgesetzt die Zufallsvariablen sind unabhängig mit Mittelwert Null, Varianz Eins.

Einige andere Versionen des CLT erwähnen die Klasse von Lipschtiz-Funktionen, die durch 1 begrenzt sind; Einige andere Versionen der CLT erwähnen die Klasse der glatten Funktionen mit einer begrenzten Ableitung der Ordnung k . Betrachten Sie zwei Folgen X1,,Xn und Z1,,Zn wie oben und für einige Funktionen f das Konvergenzergebnis (CONV).

(CONV)E[f(X1++Xnn)]E[f(Z1++Znn)]n+0

Es ist möglich, die Äquivalenz ("wenn und nur wenn") zwischen den folgenden Aussagen festzustellen:

  1. ff(t)=1t<xf(t)=0txx
  2. f:RR
  3. C
  4. fsupxR|f(x)|1

Jeder der 4 obigen Punkte besagt, dass die Konvergenz für eine große Klasse von Funktionen gilt. Durch ein technisches Näherungsargument kann man zeigen, dass die vier obigen Punkte äquivalent sind. Wir verweisen den Leser auf Kapitel 7, Seite 77 von David Pollards Buch A Benutzerhandbuch, um theoretische Wahrscheinlichkeiten zu messen , aus denen diese Antwort sehr inspiriert.

Unsere Annahme für den Rest dieser Antwort ...

supxR|f(x)|CC>0E[|Xi|3]E[|Zi|3] sind endlich.

E[f(X1++Xnn)]X1,...,Xn

X1,,XnZ1,,Zn

XiZiW=Z1++Zn1h(x)=f(x/n)

h(Z1++Zn1+Xn)=h(W)+Xnh(W)+Xn2h(W)2+Xn3/h(Mn)6h(Z1++Zn1+Zn)=h(W)+Znh(W)+Zn2h(W)2+Zn3h(Mn)6
MnMnXnWE[Xnh(W)]=E[Xn]E[h(W)]=0

(C/6)E[|Xn|3+|Zn|3](n)3.
Cf(n)3h(t)=f(t/n)/(n)3XnZn

Xn1Zn1W~=Z1+Z2++Zn2+Xn

h(Z1++Zn2+Xn1+Xn)=h(W~)+Xn1h(W~)+Xn12h(W~)2+Xn13/h(M~n)6h(Z1++Zn2+Zn1+Xn)=h(W~)+Zn1h(W~)+Zn12h(W~)2+Zn13/h(M~n)6.
Zn1W~Xn-1W~

(C/6)E[|Xn-1|3+|Zn-1|3](n)3.
ZichXichn
|E[f(X1++Xnn)]-E[f(Z1++Znn)]|n(C/6)maxich=1,,nE[|Xich|3+|Zich|3](n)3.
nX1,,XnZ1,,ZnXichZichO(1/(n)3)XichZichO(1/n)

E[f(X1++Xnn)]X1,,XnE[Xi]=E[Zi]=0,E[Zi2]=E[Xi2]=1

3. Warum die Normalverteilung?

E[f(X1++Xnn)]XiO(1/n)

E[f(X1++Xnn)]

X1,,Xn(X1++Xn)/n

N(0,1)Z1,,ZnN(0,1)Z1++ZnnN(0,1)nZN(0,1)

E[f(Z1++Znn)]=E[f(Z)],
X1,,XnE[Xi]=0,E[Xi2]=1

|E[f(X1++Xnn)]E[f(Z)|supxR|f(x)|maxi=1,,nE[|Xi|3+|Z|3]6n.

Sie scheinen eher ein Gesetz mit einer großen Anzahl als das CLT zu behaupten .
whuber

1
E[f((X1+...+Xn)/n)]E[f(Z)]ZN(0,1)f

2
Ich verstehe was du meinst. Ich habe Bedenken, dass Ihre Behauptung nur Erwartungen und keine Verteilungen betrifft, während das CLT Schlussfolgerungen über eine begrenzte Verteilung zieht. Die Äquivalenz zwischen den beiden ist für viele möglicherweise nicht sofort ersichtlich. Könnte ich also vorschlagen, dass Sie einen expliziten Zusammenhang zwischen Ihrer Aussage und den üblichen Aussagen des CLT in Bezug auf die Beschränkung von Verteilungen herstellen? (+1 übrigens: Danke, dass Sie dieses Argument ausgearbeitet haben.)
whuber

1

Ich habe es aufgegeben, eine intuitive Version zu entwickeln, und habe einige Simulationen entwickelt. Ich habe eine, die eine Simulation eines Quincunx zeigt, und einige andere, die Dinge zeigen, wie selbst eine verzerrte Verteilung der rohen Reaktionszeit normal wird, wenn Sie genug RTs pro Thema sammeln. Ich denke, sie helfen, aber sie sind neu in meiner Klasse in diesem Jahr und ich habe den ersten Test noch nicht benotet.

Eine Sache, die ich für gut hielt, war, auch das Gesetz der großen Zahlen zeigen zu können. Ich könnte zeigen, wie variabel die Dinge bei kleinen Stichprobengrößen sind, und dann zeigen, wie sie sich bei großen stabilisieren. Ich mache auch eine Menge anderer Demos. Ich kann die Wechselwirkung im Quincunx zwischen der Anzahl der zufälligen Prozesse und der Anzahl der Proben zeigen.

(Es hat sich als ein Segen herausgestellt, wenn ich in meiner Klasse keine Kreide oder weiße Tafel verwenden kann.)


Hallo John, schön dich nach fast neun Jahren mit diesem Beitrag wiederzusehen! Es wäre interessant zu lesen, welche Erfahrungen Sie in der Zwischenzeit mit der Verwendung von Simulationen gemacht haben, um die Idee des CLT und der LLNs zu vermitteln.
Whuber

Ich hörte ein Jahr später auf, diesen Kurs zu unterrichten, aber der nachfolgende Ausbilder griff die Simulationsidee auf. Tatsächlich trägt er es viel weiter und hat eine Reihe glänzender Apps entwickelt und die Schüler spielen mit Simulationen für eine Menge Dinge in der 250-Personen-Klasse. Soweit ich das aus dem Unterricht der Oberschicht ersehen kann, scheinen die Schüler viel davon zu haben. Der Unterschied zwischen seinen Schülern und denen aus gleichwertigen Förderklassen ist spürbar. (aber natürlich gibt es dort viele unkontrollierte Variablen)
John

Vielen Dank, John. Es ist so ungewöhnlich, dass ich nach Abschluss eines Kurses sogar ein anekdotisches Feedback über dauerhafte Schülerleistungen bekomme, dass ich selbst diese begrenzten Informationen von Interesse finde.
Whuber

-8

Wenn Sie viele Histogramme mit zufälligen Verteilungen addieren, behalten Sie entweder die normale Verteilungsform bei, weil alle einzelnen Histogramme bereits diese Form haben, oder Sie erhalten diese Form, weil sich Schwankungen in den einzelnen Histogrammen gegenseitig aufheben, wenn Sie große hinzufügen Anzahl der Histogramme. Ein Histogramm einer zufälligen Verteilung einer Variablen ist bereits annähernd so verteilt, dass die Leute damit begonnen haben, die Normalverteilung zu nennen, weil sie so verbreitet ist und das ein Mikrokosmos des zentralen Grenzwertsatzes ist.

Dies ist nicht die ganze Geschichte, aber ich denke, es ist so intuitiv wie es nur geht.


2
2

5
18,14,12,14,18
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.