Ich entschuldige mich im Voraus für die Länge dieses Beitrags: Es ist etwas beunruhigt, dass ich ihn überhaupt öffentlich herausgebe, da das Durchlesen einige Zeit und Aufmerksamkeit in Anspruch nimmt und zweifelsohne typografische Fehler und Fehlintervalle aufweist. Aber hier ist es für diejenigen, die sich für das faszinierende Thema interessieren, in der Hoffnung, dass es Sie ermutigt, einen oder mehrere der vielen Teile des CLT zu identifizieren, um weitere Antworten auf Ihre eigenen Fragen zu erhalten.
Die meisten Versuche, die CLT zu "erklären", sind Illustrationen oder nur Wiederholungen, die bestätigen, dass sie wahr sind. Eine wirklich durchdringende, korrekte Erklärung müsste eine Menge Dinge erklären.
Bevor wir weiter darauf eingehen, wollen wir uns klar machen, was die CLT sagt. Wie Sie alle wissen, gibt es Versionen, die sich in ihrer Allgemeinheit unterscheiden. Der gemeinsame Kontext ist eine Folge von Zufallsvariablen, bei denen es sich um bestimmte Arten von Funktionen in einem gemeinsamen Wahrscheinlichkeitsraum handelt. Für intuitive Erklärungen, die rigoros bleiben, finde ich es hilfreich, sich einen Wahrscheinlichkeitsraum als eine Box mit unterscheidbaren Objekten vorzustellen. Es ist egal, was diese Objekte sind, aber ich werde sie "Tickets" nennen. Wir machen eine "Beobachtung" einer Schachtel, indem wir die Karten gründlich mischen und eine herausziehen; Dieses Ticket ist die Beobachtung. Nachdem wir es für eine spätere Analyse aufgezeichnet haben, senden wir es an die Box zurück, sodass sein Inhalt unverändert bleibt. Eine "Zufallsvariable" ist im Grunde eine Zahl, die auf jedes Ticket geschrieben ist.
Im Jahr 1733 betrachtete Abraham de Moivre den Fall einer einzelnen Box, in der die Nummern auf den Tickets nur Nullen und Einsen sind ("Bernoulli-Versuche"), wobei einige von jeder Nummer vorhanden waren. Er stellte sich physikalisch unabhängige Beobachtungen vor, die eine Folge von Werten x 1 , x 2 , ... , x n ergaben , die alle null oder eins sind. Die Summe dieser Werte ist y n = x 1 + x 2 + … + x nnx1,x2,…,xnyn=x1+x2+…+xnist zufällig, weil die Terme in der Summe sind. Wenn wir diesen Vorgang also mehrmals wiederholen könnten, würden verschiedene Summen (ganze Zahlen von bis n ) mit verschiedenen Häufigkeiten auftreten - Proportionen der Gesamtsumme. (Siehe die folgenden Histogramme.)0n
Nun würde man erwarten - und es ist wahr - dass für sehr große Werte von alle Frequenzen ziemlich klein wären. Wenn wir so mutig (oder dumm) wären, zu versuchen, "ein Limit zu nehmen" oder " n auf ∞ gehen zu lassen ", würden wir richtig schließen, dass sich alle Frequenzen auf 0 reduzieren . Aber wenn wir einfach ein Histogramm zeichnen die Frequenzen, ohne dafür zu zahlen keine Aufmerksamkeit auf , wie ihre Achsen gekennzeichnet sind, sehen wir , dass die Histogramme für große n beginnen alle gleich aussehen: in gewissem Sinne diese Histogramme eine Grenze nähern , auch wenn die Frequenzen selbst gehen alle auf Null.nn∞0n
Diese Histogramme zeigen die Ergebnisse der mehrmaligen Wiederholung des Verfahrens zur Ermittlung von . n ist die "Anzahl der Versuche" in den Titeln.ynn
Die Einsicht hier ist, zuerst das Histogramm zu zeichnen und später seine Achsen zu beschriften . Mit großem deckt das Histogramm einen großen Wertebereich ab, der um n / 2 (auf der horizontalen Achse) zentriert ist, und ein verschwindend kleines Intervall von Werten (auf der vertikalen Achse), da die einzelnen Frequenzen ziemlich klein werden. Das Einpassen dieser Kurve in den Zeichenbereich erforderte daher sowohl ein Verschieben als auch ein erneutes Skalieren des Histogramms. Die mathematische Beschreibung hierfür ist, dass wir für jedes n einen zentralen Wert m n (nicht unbedingt eindeutig!) Wählen können, um das Histogramm und einen Skalenwert s n zu positionierennn/2nmnsn(Nicht unbedingt einzigartig!), damit es in die Achsen passt. Dies kann mathematisch erfolgen, indem zu z n = ( y n - m n ) / s n geändert wird .ynzn=(yn−mn)/sn
Denken Sie daran, dass ein Histogramm die Frequenzen durch Bereiche zwischen ihm und der horizontalen Achse darstellt. Die eventuelle Stabilität dieser Histogramme für große Werte von sollte daher in Bezug auf die Fläche angegeben werden. n Wählen Sie also beliebiges Intervall von Werten aus, z. B. von a bis b > a, und verfolgen Sie mit zunehmendem Wert n den Bereich des Teils des Histogramms von z n , der sich horizontal über das Intervall erstreckt ( a , b ) . Die CLT gibt mehrere Werte an Dinge:ab>anzn(a,b]
Egal was und b sind,ab wenn wir die Sequenzen und s n angemessen auswählen (in einer Weise, die nicht von a oder b abhängt ), nähert sich dieser Bereich tatsächlich einer Grenze, wenn n groß wird.mnsnabn
Die Sequenzen und s n können auf eine Weise gewählt werden, die nur von n , dem Durchschnitt der Werte in der Box und einem gewissen Maß für die Streuung dieser Werte abhängt - aber von nichts anderem -, so dass unabhängig davon, was sich in der Box befindet In der Box ist das Limit immer gleich. (Diese Universalitätseigenschaft ist erstaunlich.)mnsnn
Speziell dieser Bereich begrenzt , ist die Fläche unter der Kurve zwischenaundb: Dies ist die Formel dieses universellen Grenzhistogramms.y=exp(−z2/2)/2π−−√ab
Die erste Verallgemeinerung des CLT fügt hinzu,
Wenn das Kästchen zusätzlich zu Nullen und Einsen Zahlen enthalten kann, gelten genau dieselben Schlussfolgerungen (vorausgesetzt, die Anteile extrem großer oder kleiner Zahlen im Kästchen sind nicht "zu groß", ein Kriterium, das eine präzise und einfache quantitative Aussage enthält). .
Die nächste Verallgemeinerung, und vielleicht die erstaunlichste, ersetzt diese einzelne Schachtel mit Tickets durch eine bestellte, unendlich lange Reihe von Schachteln mit Tickets. Jede Box kann unterschiedliche Nummern in unterschiedlichen Anteilen auf ihren Tickets haben. Die Beobachtung erfolgt durch Ziehen eines Tickets aus der ersten Schachtel, x 2 aus der zweiten Schachtel und so weiter.x1x2
Genau die gleichen Schlussfolgerungen gelten, sofern der Inhalt der Kästchen "nicht zu unterschiedlich" ist (es gibt mehrere präzise, aber unterschiedliche quantitative Charakterisierungen dessen, was "nicht zu unterschiedlich" bedeutet; sie ermöglichen einen erstaunlichen Spielraum).
Diese fünf Behauptungen müssen zumindest erklärt werden. Es gibt mehr. In allen Anweisungen sind mehrere interessante Aspekte des Setups enthalten. Zum Beispiel,
Was ist das Besondere an der Summe ? Warum haben wir keine zentralen Grenzwertsätze für andere mathematische Zahlenkombinationen wie ihr Produkt oder ihr Maximum? (Es hat sich herausgestellt, dass dies der Fall ist, aber sie sind weder ganz so allgemein noch haben sie immer eine so klare und einfache Schlussfolgerung, es sei denn, sie können auf die CLT reduziert werden.) Die Sequenzen von und s n sind nicht eindeutig, aber sie sind fast einzigartig in dem Sinne, dass sie schließlich die Erwartung der Summe von n Tickets und die Standardabweichung der Summe (die in den ersten beiden Aussagen der CLT gleich √ ist) approximieren müssenmnsnn mal die Standardabweichung der Box). n−−√
Die Standardabweichung ist ein Maß für die Streuung von Werten, aber keineswegs das einzige und auch nicht das "natürlichste", weder historisch noch für viele Anwendungen. (Viele Menschen würden zum Beispiel so etwas wie eine absolute Abweichung vom Median wählen .)
Warum erscheint die SD so wesentlich?
Betrachten Sie die Formel für das Grenzhistogramm: Wer hätte erwartet, dass es eine solche Form annimmt? Es heißt, der Logarithmus der Wahrscheinlichkeitsdichte sei eine quadratische Funktion. Warum? Gibt es eine intuitive oder klare, überzeugende Erklärung dafür?
Ich gebe zu, dass ich nicht in der Lage bin, das endgültige Ziel zu erreichen, Antworten zu liefern, die einfach genug sind, um Srikants herausfordernde Kriterien für Intuitivität und Einfachheit zu erfüllen, aber ich habe diesen Hintergrund in der Hoffnung skizziert, dass andere inspiriert werden könnten, einige der vielen Lücken zu füllen. Ich denke, eine gute Demonstration muss sich letztendlich auf eine elementare Analyse stützen, wie Werte zwischen und β n = b s n + m n bei der Bildung der Summe x 1 + x 2 + entstehen können . + x nαn=asn+mnβn=bsn+mnx1+x2+…+xn. Zurück zu der Single-Box-Version des CLT ist der Fall einer symmetrischen Verteilung einfacher zu handhaben: Der Median entspricht dem Mittelwert, sodass die 50% ige Chance besteht, dass kleiner als der Mittelwert der Box und die 50% ige Chance ist dass x i größer sein wird als sein Mittelwert. Außerdem sollten die positiven Abweichungen vom Mittelwert die negativen Abweichungen im Mittelwert ausgleichen , wenn n ausreichend groß ist. (Dies erfordert eine sorgfältige Begründung, nicht nur das Winken von Hand.) Daher sollten wir uns in erster Linie um das Zählen der Anzahl positiver und negativer Abweichungen kümmern und uns nur zweitrangig um ihre Größe kümmern .xixin (Von all den Dingen, die ich hier geschrieben habe, ist dies möglicherweise die nützlichste, um eine Vorstellung davon zu bekommen, warum die CLT funktioniert. Die technischen Voraussetzungen, die erforderlich sind, um die Verallgemeinerungen der CLT wahr werden zu lassen, sind im Wesentlichen verschiedene Möglichkeiten, um die Möglichkeit auszuschließen, dass seltene große Abweichungen stören das Gleichgewicht genug, um das Auftreten des Grenzhistogramms zu verhindern.)
Dies zeigt bis zu einem gewissen Grad, warum die erste Verallgemeinerung des CLT nichts aufdeckt, was nicht in der ursprünglichen Bernoulli-Testversion von de Moivre enthalten war.
An diesem Punkt sieht es so aus, als ob es nichts anderes gibt, als ein wenig zu rechnen : Wir müssen die Anzahl der unterschiedlichen Arten zählen, in denen sich die Anzahl der positiven Abweichungen vom Mittelwert von der Anzahl der negativen Abweichungen um einen vorgegebenen Wert , wobei offenbar k eines von - n , - n + 2 , ... , n - 2 , n ist . Aber weil verschwindend kleine Fehler im Limit verschwinden, müssen wir nicht genau zählen; wir müssen nur die Zählungen annähern. Zu diesem Zweck reicht es aus, das zu wissenkk−n,−n+2,…,n−2,n
The number of ways to obtain k positive and n−k negative values out of n
gleich n - k + 1k
mal die Anzahl der Möglichkeiten, um k - 1 positive und n - k + 1 negative Werte zu erhalten.
(Das ist ein perfektes elementares Ergebnis, deshalb werde ich mich nicht darum kümmern, die Begründung aufzuschreiben.) Die maximale Frequenz tritt auf, wenn so nahe wie möglich an n / 2 liegt (auch elementar). Schreiben wir m = n / 2 . Dann wird relativ zur Maximalfrequenz die Frequenz von m + j + 1 positiven Abweichungen ( j ≥ 0 ) durch das Produkt geschätztkn / 2m = n / 2m + j + 1j ≥ 0
m + 1m + 1mm + 2⋯ m - j + 1m + j + 1
= 1 - 1 / ( m + 1 )1 + 1 / ( m + 1 )1 - 2 / ( m + 1 )1 + 2 / ( m + 1 )⋯1−j/(m+1)1+j/(m+1).
135 Jahre bevor de Moivre schrieb, erfand John Napier Logarithmen, um die Multiplikation zu vereinfachen. Lassen Sie uns dies nutzen. Mit der Näherung
log(1−x1+x)∼−2x,
Wir finden, dass das Log der relativen Häufigkeit ungefähr ist
−2/(m+1)−4/(m+1)−⋯−2j/(m+1)=−j(j+1)m+1∼−j2m.
Da der kumulative Fehler proportional zu , sollte dies gut funktionieren, vorausgesetzt, j 4 ist im Verhältnis zu m 3 klein . Dies deckt einen größeren Wertebereich von j ab, als benötigt wird. (Es reicht aus, wenn die Approximation für j nur in der Größenordnung von √ funktioniertj4/m3j4m3jj die asymptotisch ist viel kleiner alsm 3 / 4 .)m−−√m3/4
Es ist klar, dass viel mehr Analysen dieser Art vorgelegt werden sollten, um die anderen Behauptungen in der CLT zu rechtfertigen, aber mir gehen Zeit, Raum und Energie aus und ich habe wahrscheinlich 90% der Leute verloren, die damit begonnen haben, dies trotzdem zu lesen. Diese einfache Annäherung lässt jedoch vermuten, dass de Moivre ursprünglich vermutet hatte, dass es eine universelle Grenzverteilung gibt, dass sein Logarithmus eine quadratische Funktion ist und dass der richtige Skalierungsfaktor proportional zu √ sein musssn (weilj2/m=2j2/n=2(j/ √n−−√). j2/m=2j2/n=2(j/n−−√)2 Es ist schwer vorstellbar, wie diese wichtige quantitative Beziehung erklärt werden könnte, ohne irgendeine Art von mathematischer Information und Argumentation aufzurufen. Alles andere würde die genaue Form der Grenzkurve zu einem völligen Rätsel machen.