Wir können verschiedene Ansätze verfolgen, von denen jeder für manche Menschen intuitiv und für andere weniger als intuitiv erscheint. Um solchen Variationen Rechnung zu tragen, werden in dieser Antwort verschiedene Ansätze beschrieben, die die Hauptbereiche des mathematischen Denkens abdecken - Analyse (unendlich und unendlich klein), Geometrie / Topologie (räumliche Beziehungen) und Algebra (formale Muster symbolischer Manipulation) - als sowie die Wahrscheinlichkeit selbst. Es gipfelt in einer Beobachtung, die alle vier Ansätze vereint, zeigt, dass hier eine echte Frage zu beantworten ist, und zeigt, worum es genau geht. Jeder Ansatz bietet auf seine Weise einen tieferen Einblick in die Art der Formen der Wahrscheinlichkeitsverteilungsfunktionen von Summen unabhängiger einheitlicher Variablen.
Hintergrund
Die Uniform -Verteilung[0,1] enthält mehrere grundlegende Beschreibungen. Wenn eine solche Verteilung hat,X
Die Wahrscheinlichkeit, dass in einer messbaren Menge A liegt, ist nur das Maß (Länge) von A ∩ [ 0 , 1 ] , geschrieben | A ∩ [ 0 , 1 ] | .XAA∩[0,1]|A∩[0,1]|
Daraus ergibt sich unmittelbar die kumulative Verteilungsfunktion (CDF)
FX(x)=Pr(X≤x)=|(−∞,x]∩[0,1]|=|[0,min(x,1)]|=⎧⎩⎨⎪⎪0x1x<00≤x≤1x>1.
Die Wahrscheinlichkeitsdichtefunktion (PDF), die die Ableitung der CDF ist, ist für und ansonsten. (Es ist bei und undefiniert .)0 ≤ x ≤ 1 f X ( x ) = 0 0 1fX(x)=10≤x≤1fX(x)=001
Intuition aus charakteristischen Funktionen (Analyse)
Die charakteristische Funktion (CF) jeder Zufallsvariablen ist die Erwartung von (wobei die imaginäre Einheit ist, ). Mit dem PDF einer einheitlichen Verteilung können wir berechnenexp ( i t X ) i i 2 = - 1Xexp(itX)ii2=−1
ϕX(t)=∫∞−∞exp(itx)fX(x)dx=∫10exp(itx)dx=exp(itx)it∣∣∣x=1x=0=exp(it)−1it.
Die CF ist eine (Version der) Fourier-Transformation der PDF, . Die grundlegendsten Theoreme über Fourier-Transformationen sind:ϕ(t)=f^(t)
Die CF einer Summe von unabhängigen Variablen ist das Produkt ihrer CFs.X+Y
Wenn die ursprüngliche PDF stetig ist und begrenzt ist, kann durch eine eng verwandte Version der Fouriertransformation aus der CF wiederhergestellt werden.X f ϕfXfϕ
f(x)=ϕˇ(x)=12π∫∞−∞exp(−ixt)ϕ(t)dt.
Wenn differenzierbar ist, kann seine Ableitung unter dem Vorzeichen berechnet werden:f
f′(x)=ddx12π∫∞−∞exp(−ixt)ϕ(t)dt=−i2π∫∞−∞texp(−ixt)ϕ(t)dt.
Damit dies genau definiert werden kann, muss das letzte Integral absolut konvergieren. das ist,
∫∞−∞|texp(−ixt)ϕ(t)|dt=∫∞−∞|t||ϕ(t)|dt
muss zu einem endlichen Wert konvergieren. Wenn es dagegen konvergiert, existiert die Ableitung aufgrund dieser Inversionsformeln überall.
Es ist nun genau klar, wie differenzierbar das PDF für eine Summe von gleichförmigen Variablen ist: Vom ersten Aufzählungspunkt an ist die CF der Summe der iid-Variablen die CF einer von ihnen, die zur Potenz von wird. hier gleich . Der Zähler ist begrenzt (er besteht aus Sinuswellen), während der Nenner . Wir können einen solchen Integranden mit multiplizieren und er wird immer noch absolut konvergieren, wenn und bedingt konvergieren, wenn . Somit zeigt die wiederholte Anwendung des dritten Aufzählungszeichens, dass das PDF für die Summe von gleichförmigen Variationen kontinuierlichn th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) , t s s < n - 1 s = n - 1 n n - 2 n - 1nnth(exp(it)−1)n/(it)nO(tn)tss<n−1s=n−1nn−2mal differenzierbar und meist mal differenzierbar.n−1
Die blau schattierte Kurve ist ein Log-Log-Diagramm des Absolutwerts des Realteils der CF aus der Summe von iid gleichförmigen Variationen. Die gestrichelte rote Linie ist eine Asymptote. seine Steigung ist , was zeigt, dass das PDF mal differenzierbar ist. Die graue Kurve zeigt als Referenz den Realteil der CF für eine ähnlich geformte Gaußsche Funktion (eine normale PDF).- 10 10 - 2 = 8n=10−1010−2=8
Intuition aus der Wahrscheinlichkeit
Lassen und unabhängige Zufallsvariablen, in denen eine Uniform hat Verteilung. Betrachten Sie ein enges Intervall . Wir zerlegen die Wahrscheinlichkeit, dass in die Wahrscheinlichkeit, dass diesem Intervall ausreichend nahe kommt, multipliziert mit der Wahrscheinlichkeit, dass genau die richtige Größe hat um in diesem Intervall zu platzieren, vorausgesetzt, ist nah genug:YXX[0,1](t,t+dt]X+Y∈(t,t+dt]YXX+YY
fX+Y(t)dt=Pr(X+Y∈(t,t+dt])=Pr(X+Y∈(t,t+dt]|Y∈(t−1,t+dt])Pr(Y∈(t−1,t+dt])=Pr(X∈(t−Y,t−Y+dt]|Y∈(t−1,t+dt])(FY(t+dt)−FY(t−1))=1dt(FY(t+dt)−FY(t−1)).
Die letzte Gleichheit kommt aus dem Ausdruck für die PDF von . Dividieren beider Seiten mit und unter den Grenzwert für gibtXdtdt→0
fX+Y(t)=FY(t)−FY(t−1).
Mit anderen Worten wird eine gleichmäßige Zugabe Variable auf jede Variable ändert die pdf in eine differenced CDF . Da die PDF-Datei die Ableitung der CDF ist, bedeutet dies, dass jedes Mal , wenn wir eine unabhängige einheitliche Variable zu hinzufügen , die resultierende PDF-Datei eine größere Differenzierbarkeit aufweist als zuvor.[0,1]XYfYFY(t)−FY(t−1)Y
Wenden wir diese Einsicht an, indem wir mit einer einheitlichen Variablen . Das Original-PDF ist bei oder nicht unterscheidbar : Es ist dort diskontinuierlich. Das PDF von ist bei , oder nicht differenzierbar , muss jedoch an diesen Punkten stetig sein, da es sich um die Differenz der Integrale des PDF von . Fügen Sie eine weitere unabhängige einheitliche Variable : Die PDF von ist bei , , und differenzierbar, muss aber nicht die zweite habenY01Y+X012YX2Y+X+X2 0123Ableitungen an diesen Punkten. Und so weiter.
Intuition aus der Geometrie
Die CDF bei einer Summe von IId einheitliche variates gleich dem Volumen der Einheit hypercube liegen innerhalb des Halbraum . Die Situation für Variationen ist hier gezeigt, wobei auf , und dann .tn[0,1]nx1+x2+⋯+xn≤tn=3t1/23/25/2
Während von bis fortschreitet , kreuzt die Hyperebene Eckpunkte bei , . Zu jedem Zeitpunkt ändert sich die Form des Querschnitts: In der Abbildung ist es zuerst ein Dreieck (ein Implex), dann ein Sechseck, dann wieder ein Dreieck. Warum weist das PDF bei diesen Werten von keine scharfen Biegungen auf ?t0nHn(t):x1+x2+⋯+xn=tt=0t=1,…,t=n2t
Um dies zu verstehen, betrachten Sie zuerst kleine Werte von . Hier schneidet die Hyperebene einen Implex ab. Alle Dimensionen des Simplex sind direkt proportional zu , daher ist seine "Fläche" proportional zu . Eine Notation dafür wird später nützlich sein. Sei die "Einheitsschrittfunktion"tHn(t)n−1n−1ttn−1θ
θ(x)={01x<0x≥0.
Ohne das Vorhandensein der anderen Ecken des Hyperwürfels würde diese Skalierung auf unbestimmte Zeit fortgesetzt. Eine grafische Darstellung der Fläche des Implex würde wie die durchgezogene blaue Kurve unten aussehen: Sie ist bei negativen Werten Null und entsprichtim positiven Fall wird zweckmäßigerweise geschrieben:. Es hat einen "Knick" der Ordnung am Ursprung, in dem Sinne, dass alle Ableitungen durch die Ordnung existieren und kontinuierlich sind, aber dass linke und rechte Ableitungen der Ordnung existieren, aber am Ursprung nicht übereinstimmen .n−1tn−1/(n−1)!θ(t)tn−1/(n−1)!n−2n−3n−2
(Die anderen in dieser Figur gezeigten Kurven sind (Rot), (Gold) und (Schwarz). Ihre Rollen in dem Fall werden weiter unten erörtert.)−3θ(t−1)(t−1)2/2!3θ(t−2)(t−2)2/2!−θ(t−3)(t−3)2/2!n=3
Um zu verstehen, was passiert, wenn überschreitet , untersuchen wir im Detail den Fall , in dem die gesamte Geometrie in einer Ebene vorkommt. Wir können die Einheit "Würfel" (jetzt nur ein Quadrat) als eine lineare Kombination von Quadranten betrachten , wie hier gezeigt:t1n=2
Der erste Quadrant wird unten links grau angezeigt. Der Wert von ist und bestimmt die in allen fünf Feldern gezeigte Diagonale. Die CDF entspricht dem rechts gezeigten gelben Bereich. Dieser gelbe Bereich besteht aus:t1.5
Der dreieckige graue Bereich im unteren linken Bereich,
minus der dreieckigen grünen Fläche in der oberen linken Platte,
abzüglich des dreieckigen roten Bereichs im unteren mittleren Bereich,
Plus ein blauer Bereich im oberen mittleren Bereich (aber es gibt keinen solchen Bereich und es wird auch keinen geben, bis überschreitet ).t2
Jeder dieser Bereiche ist die Fläche eines Dreiecks. Die erste skaliert wie , die nächsten beiden sind Null für und ansonsten skaliert wie und die letzte ist Null für und skaliert sonst wie . Diese geometrische Analyse hat ergeben, dass der CDF proportional zu = ; äquivalent dazu ist das PDF proportional zur Summe der drei Funktionen , und2n=4tn=t2t<1(t−1)n=(t−1)2t<2(t−2)nθ(t)t2−θ(t−1)(t−1)2−θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t2−2θ(t−1)(t−1)2+θ(t−2)(t−2)2θ(t)t−2θ(t−1)(t−1)θ(t−2)(t−2)(Jeder von ihnen skaliert linear, wenn ). Das linke Feld dieser Figur zeigt ihre Graphen: Offensichtlich sind sie alle Versionen des ursprünglichen Graphen , aber (a) um , und Einheiten nach rechts verschoben und (b) um skaliert , bzw. .n=2θ(t)t0121−21
Das rechte Feld zeigt die Summe dieser Diagramme (die durchgezogene schwarze Kurve, die auf die Einheitsfläche normiert ist). Dies ist genau das in der ursprünglichen Frage gezeigte eckig aussehende PDF.
Jetzt können wir die Natur der "Knicke" in der PDF jeder Summe von iid einheitlichen Variablen verstehen. Sie sind alle genau wie der "Knick", der bei in der Funktion auftritt , möglicherweise neu skaliert und zu den Ganzzahlen verschoben, die der Hyperebene entsprechen kreuzt die Eckpunkte des Hyperwürfels. Für ist dies eine sichtbare Richtungsänderung: Die rechte Ableitung von bei ist während die linke Ableitung . Für ist dies eine stetige0θ(t)tn−11,2,…,nHn(t)n=2θ(t)t001n=3Richtungswechsel, aber ein plötzlicher (diskontinuierlicher) Wechsel in der zweiten Ableitung. Für allgemeines gibt es kontinuierliche Ableitungen durch die Ordnung aber eine Diskontinuität in der Ableitung von .nn−2n−1st
Intuition durch algebraische Manipulation
Die Integration zur Berechnung der CF, die Form der bedingten Wahrscheinlichkeit in der Wahrscheinlichkeitsanalyse und die Synthese eines Hyperwürfels als Linearkombination von Quadranten lassen darauf schließen, dass die ursprüngliche Gleichverteilung wiederhergestellt und als Linearkombination einfacherer Dinge ausgedrückt wird . In der Tat kann sein PDF geschrieben werden
fX(x)=θ(x)−θ(x−1).
Stellen wir uns den Shift-Operator : Er wirkt auf jede Funktion indem er seinen Graphen um eine Einheit nach rechts verschiebt:Δf
(Δf)(x)=f(x−1).
Formal können wir also für das PDF einer einheitlichen Variablen schreibenX
fX=(1−Δ)θ.
Die PDF einer Summe von iid Uniformen ist die Faltung von mit sich - mal. Dies folgt aus der Definition einer Summe von Zufallsvariablen: Die Faltung zweier Funktionen und ist die FunktionnfXnfg
(f⋆g)(x)=∫∞−∞f(x−y)g(y)dy.
Es ist leicht zu überprüfen, ob die Faltung mit . Ändern Sie einfach die Integrationsvariable von in :Δyy+1
(f⋆(Δg))=∫∞−∞f(x−y)(Δg)(y)dy=∫∞−∞f(x−y)g(y−1)dy=∫∞−∞f((x−1)−y)g(y)dy=(Δ(f⋆g))(x).
Für die PDF der Summe von iid Uniformen, können wir gehen nun algebraisch zu schreibenn
f=f⋆nX=((1−Δ)θ)⋆n=(1−Δ)nθ⋆n
(wobei "power" eine wiederholte Faltung bedeutet, keine punktweise Multiplikation!). Nun ist eine direkte, elementare Integration, die gibtθ ⋆ n⋆nθ⋆n
θ⋆n(x)=θ(x)xn−1n−1!.
Der Rest ist Algebra, weil der Binomialsatz gilt (wie in jeder kommutativen Algebra über den Real):
f=(1−Δ)nθ⋆n=∑i=0n(−1)i(ni)Δiθ⋆n.
Da sein Argument lediglich um , zeigt dies das PDF als eine lineare Kombination von verschobenen Versionen von , genau wie wir geometrisch abgeleitet haben:Δiifθ(x)xn−1
f(x)=1(n−1)!∑i=0n(−1)i(ni)(x−i)n−1θ(x−i).
(John Cook zitiert diese Formel später in seinem Blog-Beitrag unter Verwendung der Notation für .)(x−i)n−1+(x−i)n−1θ(x−i)
Da überall eine glatte Funktion ist, tritt ein singuläres Verhalten der PDF nur an Stellen auf, an denen singulär ist (offensichtlich nur ) und an Stellen, die um nach rechts verschoben sind . Die Art dieses singulären Verhaltens - der Grad der Glätte - ist daher an allen Stellen gleich.xn−1θ(x)01,2,…,nn+1
Dies ist das Bild für , das (im linken Feld) die einzelnen Terme in der Summe und (im rechten Feld) die Teilsummen zeigt, die in der Summe selbst gipfeln (durchgezogene schwarze Kurve):n=8
Abschließende Kommentare
Es ist nützlich zu bemerken, dass dieser letzte Ansatz endlich einen kompakten, praktischen Ausdruck für die Berechnung des PDF aus einer Summe von iid einheitlichen Variablen hervorgebracht hat. (Eine Formel für den CDF wird auf ähnliche Weise erhalten.)n
Der zentrale Grenzwertsatz hat hier wenig zu sagen. Immerhin konvergiert eine Summe von iid- Binomialvariablen zu einer Normalverteilung, aber diese Summe ist immer diskret: Es gibt überhaupt kein PDF! Wir sollten nicht darauf hoffen, dass die CLT eine Vorstellung von "Knicken" oder anderen Maßnahmen zur Unterscheidbarkeit eines PDFs vermittelt.