Betrachten Sie die Summe von


40

Ich habe mich eine Weile darüber gewundert. Ich finde es ein bisschen komisch, wie plötzlich es passiert. Warum brauchen wir eigentlich nur drei Uniformen, damit Zn so glatt wird? Und warum geschieht das Glätten so relativ schnell?

Z2 :

2

Z3 :

3

(Bilder, die schamlos aus John D. Cooks Blog gestohlen wurden: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ )

Warum braucht es nicht etwa vier Uniformen? Oder fünf? Oder...?


11
gut, um so einfach zu sein, dass es einfach ist, weil die Summe von 3 Uniformen quadratische Segmente in ihrem pf hat, und sobald Sie zwei oder mehr Uniformen erhalten, haben Sie eine Spitze am Mittelwert. Eine quadratische Spitze ist "glatt" ... und die Verbindungen zwischen quadratischen Teilen liegen bei 1 und 2, sodass sie bei 1,5 nicht knicken können. Es gibt noch andere Möglichkeiten, zu demselben Ergebnis zu gelangen
Glen_b

Antworten:


71

Wir können verschiedene Ansätze verfolgen, von denen jeder für manche Menschen intuitiv und für andere weniger als intuitiv erscheint. Um solchen Variationen Rechnung zu tragen, werden in dieser Antwort verschiedene Ansätze beschrieben, die die Hauptbereiche des mathematischen Denkens abdecken - Analyse (unendlich und unendlich klein), Geometrie / Topologie (räumliche Beziehungen) und Algebra (formale Muster symbolischer Manipulation) - als sowie die Wahrscheinlichkeit selbst. Es gipfelt in einer Beobachtung, die alle vier Ansätze vereint, zeigt, dass hier eine echte Frage zu beantworten ist, und zeigt, worum es genau geht. Jeder Ansatz bietet auf seine Weise einen tieferen Einblick in die Art der Formen der Wahrscheinlichkeitsverteilungsfunktionen von Summen unabhängiger einheitlicher Variablen.


Hintergrund

Die Uniform -Verteilung[0,1] enthält mehrere grundlegende Beschreibungen. Wenn eine solche Verteilung hat,X

  1. Die Wahrscheinlichkeit, dass in einer messbaren Menge A liegt, ist nur das Maß (Länge) von A [ 0 , 1 ] , geschrieben | A [ 0 , 1 ] | .XAA[0,1]|A[0,1]|

  2. Daraus ergibt sich unmittelbar die kumulative Verteilungsfunktion (CDF)

    FX(x)=Pr(Xx)=|(,x][0,1]|=|[0,min(x,1)]|={0x<0x0x11x>1.

    CDF

  3. Die Wahrscheinlichkeitsdichtefunktion (PDF), die die Ableitung der CDF ist, ist für und ansonsten. (Es ist bei und undefiniert .)0 x 1 f X ( x ) = 0 0 1fX(x)=10x1fX(x)=001

    PDF


Intuition aus charakteristischen Funktionen (Analyse)

Die charakteristische Funktion (CF) jeder Zufallsvariablen ist die Erwartung von (wobei die imaginäre Einheit ist, ). Mit dem PDF einer einheitlichen Verteilung können wir berechnenexp ( i t X ) i i 2 = - 1Xexp(itX)ii2=1

ϕX(t)=exp(itx)fX(x)dx=01exp(itx)dx=exp(itx)it|x=0x=1=exp(it)1it.

Die CF ist eine (Version der) Fourier-Transformation der PDF, . Die grundlegendsten Theoreme über Fourier-Transformationen sind:ϕ(t)=f^(t)

  • Die CF einer Summe von unabhängigen Variablen ist das Produkt ihrer CFs.X+Y

  • Wenn die ursprüngliche PDF stetig ist und begrenzt ist, kann durch eine eng verwandte Version der Fouriertransformation aus der CF wiederhergestellt werden.X f ϕfXfϕ

f(x)=ϕˇ(x)=12πexp(ixt)ϕ(t)dt.
  • Wenn differenzierbar ist, kann seine Ableitung unter dem Vorzeichen berechnet werden:f

    f(x)=ddx12πexp(ixt)ϕ(t)dt=i2πtexp(ixt)ϕ(t)dt.

    Damit dies genau definiert werden kann, muss das letzte Integral absolut konvergieren. das ist,

    |texp(ixt)ϕ(t)|dt=|t||ϕ(t)|dt

    muss zu einem endlichen Wert konvergieren. Wenn es dagegen konvergiert, existiert die Ableitung aufgrund dieser Inversionsformeln überall.

Es ist nun genau klar, wie differenzierbar das PDF für eine Summe von gleichförmigen Variablen ist: Vom ersten Aufzählungspunkt an ist die CF der Summe der iid-Variablen die CF einer von ihnen, die zur Potenz von wird. hier gleich . Der Zähler ist begrenzt (er besteht aus Sinuswellen), während der Nenner . Wir können einen solchen Integranden mit multiplizieren und er wird immer noch absolut konvergieren, wenn und bedingt konvergieren, wenn . Somit zeigt die wiederholte Anwendung des dritten Aufzählungszeichens, dass das PDF für die Summe von gleichförmigen Variationen kontinuierlichn th ( exp ( i t ) - 1 ) n / ( i t ) n O ( t n ) , t s s < n - 1 s = n - 1 n n - 2 n - 1nnth(exp(it)1)n/(it)nO(tn)tss<n1s=n1nn2mal differenzierbar und meist mal differenzierbar.n1

CF für n = 10

Die blau schattierte Kurve ist ein Log-Log-Diagramm des Absolutwerts des Realteils der CF aus der Summe von iid gleichförmigen Variationen. Die gestrichelte rote Linie ist eine Asymptote. seine Steigung ist , was zeigt, dass das PDF mal differenzierbar ist. Die graue Kurve zeigt als Referenz den Realteil der CF für eine ähnlich geformte Gaußsche Funktion (eine normale PDF).- 10 10 - 2 = 8n=1010102=8


Intuition aus der Wahrscheinlichkeit

Lassen und unabhängige Zufallsvariablen, in denen eine Uniform hat Verteilung. Betrachten Sie ein enges Intervall . Wir zerlegen die Wahrscheinlichkeit, dass in die Wahrscheinlichkeit, dass diesem Intervall ausreichend nahe kommt, multipliziert mit der Wahrscheinlichkeit, dass genau die richtige Größe hat um in diesem Intervall zu platzieren, vorausgesetzt, ist nah genug:YXX[0,1](t,t+dt]X+Y(t,t+dt]YXX+YY

fX+Y(t)dt=Pr(X+Y(t,t+dt])=Pr(X+Y(t,t+dt]|Y(t1,t+dt])Pr(Y(t1,t+dt])=Pr(X(tY,tY+dt]|Y(t1,t+dt])(FY(t+dt)FY(t1))=1dt(FY(t+dt)FY(t1)).

Die letzte Gleichheit kommt aus dem Ausdruck für die PDF von . Dividieren beider Seiten mit und unter den Grenzwert für gibtXdtdt0

fX+Y(t)=FY(t)FY(t1).

Mit anderen Worten wird eine gleichmäßige Zugabe Variable auf jede Variable ändert die pdf in eine differenced CDF . Da die PDF-Datei die Ableitung der CDF ist, bedeutet dies, dass jedes Mal , wenn wir eine unabhängige einheitliche Variable zu hinzufügen , die resultierende PDF-Datei eine größere Differenzierbarkeit aufweist als zuvor.[0,1]XYfYFY(t)FY(t1)Y

Wenden wir diese Einsicht an, indem wir mit einer einheitlichen Variablen . Das Original-PDF ist bei oder nicht unterscheidbar : Es ist dort diskontinuierlich. Das PDF von ist bei , oder nicht differenzierbar , muss jedoch an diesen Punkten stetig sein, da es sich um die Differenz der Integrale des PDF von . Fügen Sie eine weitere unabhängige einheitliche Variable : Die PDF von ist bei , , und differenzierbar, muss aber nicht die zweite habenY01Y+X012YX2Y+X+X2 0123Ableitungen an diesen Punkten. Und so weiter.


Intuition aus der Geometrie

Die CDF bei einer Summe von IId einheitliche variates gleich dem Volumen der Einheit hypercube liegen innerhalb des Halbraum . Die Situation für Variationen ist hier gezeigt, wobei auf , und dann .tn[0,1]nx1+x2++xntn=3t1/23/25/2

3D Würfel

Während von bis fortschreitet , kreuzt die Hyperebene Eckpunkte bei , . Zu jedem Zeitpunkt ändert sich die Form des Querschnitts: In der Abbildung ist es zuerst ein Dreieck (ein Implex), dann ein Sechseck, dann wieder ein Dreieck. Warum weist das PDF bei diesen Werten von keine scharfen Biegungen auf ?t0nHn(t):x1+x2++xn=tt=0t=1,,t=n2t

Um dies zu verstehen, betrachten Sie zuerst kleine Werte von . Hier schneidet die Hyperebene einen Implex ab. Alle Dimensionen des Simplex sind direkt proportional zu , daher ist seine "Fläche" proportional zu . Eine Notation dafür wird später nützlich sein. Sei die "Einheitsschrittfunktion"tHn(t)n1n1ttn1θ

θ(x)={0x<01x0.

Ohne das Vorhandensein der anderen Ecken des Hyperwürfels würde diese Skalierung auf unbestimmte Zeit fortgesetzt. Eine grafische Darstellung der Fläche des Implex würde wie die durchgezogene blaue Kurve unten aussehen: Sie ist bei negativen Werten Null und entsprichtim positiven Fall wird zweckmäßigerweise geschrieben:. Es hat einen "Knick" der Ordnung am Ursprung, in dem Sinne, dass alle Ableitungen durch die Ordnung existieren und kontinuierlich sind, aber dass linke und rechte Ableitungen der Ordnung existieren, aber am Ursprung nicht übereinstimmen .n1tn1/(n1)!θ(t)tn1/(n1)!n2n3n2

(Die anderen in dieser Figur gezeigten Kurven sind (Rot), (Gold) und (Schwarz). Ihre Rollen in dem Fall werden weiter unten erörtert.)3θ(t1)(t1)2/2!3θ(t2)(t2)2/2!θ(t3)(t3)2/2!n=3

Einfaches Grundstück

Um zu verstehen, was passiert, wenn überschreitet , untersuchen wir im Detail den Fall , in dem die gesamte Geometrie in einer Ebene vorkommt. Wir können die Einheit "Würfel" (jetzt nur ein Quadrat) als eine lineare Kombination von Quadranten betrachten , wie hier gezeigt:t1n=2

Quadranten

Der erste Quadrant wird unten links grau angezeigt. Der Wert von ist und bestimmt die in allen fünf Feldern gezeigte Diagonale. Die CDF entspricht dem rechts gezeigten gelben Bereich. Dieser gelbe Bereich besteht aus:t1.5

  1. Der dreieckige graue Bereich im unteren linken Bereich,

  2. minus der dreieckigen grünen Fläche in der oberen linken Platte,

  3. abzüglich des dreieckigen roten Bereichs im unteren mittleren Bereich,

  4. Plus ein blauer Bereich im oberen mittleren Bereich (aber es gibt keinen solchen Bereich und es wird auch keinen geben, bis überschreitet ).t2

Jeder dieser Bereiche ist die Fläche eines Dreiecks. Die erste skaliert wie , die nächsten beiden sind Null für und ansonsten skaliert wie und die letzte ist Null für und skaliert sonst wie . Diese geometrische Analyse hat ergeben, dass der CDF proportional zu = ; äquivalent dazu ist das PDF proportional zur Summe der drei Funktionen , und2n=4tn=t2t<1(t1)n=(t1)2t<2(t2)nθ(t)t2θ(t1)(t1)2θ(t1)(t1)2+θ(t2)(t2)2θ(t)t22θ(t1)(t1)2+θ(t2)(t2)2θ(t)t2θ(t1)(t1)θ(t2)(t2)(Jeder von ihnen skaliert linear, wenn ). Das linke Feld dieser Figur zeigt ihre Graphen: Offensichtlich sind sie alle Versionen des ursprünglichen Graphen , aber (a) um , und Einheiten nach rechts verschoben und (b) um skaliert , bzw. .n=2θ(t)t012121

Diagramme für n = 2

Das rechte Feld zeigt die Summe dieser Diagramme (die durchgezogene schwarze Kurve, die auf die Einheitsfläche normiert ist). Dies ist genau das in der ursprünglichen Frage gezeigte eckig aussehende PDF.

Jetzt können wir die Natur der "Knicke" in der PDF jeder Summe von iid einheitlichen Variablen verstehen. Sie sind alle genau wie der "Knick", der bei in der Funktion auftritt , möglicherweise neu skaliert und zu den Ganzzahlen verschoben, die der Hyperebene entsprechen kreuzt die Eckpunkte des Hyperwürfels. Für ist dies eine sichtbare Richtungsänderung: Die rechte Ableitung von bei ist während die linke Ableitung . Für ist dies eine stetige0θ(t)tn11,2,,nHn(t)n=2θ(t)t001n=3Richtungswechsel, aber ein plötzlicher (diskontinuierlicher) Wechsel in der zweiten Ableitung. Für allgemeines gibt es kontinuierliche Ableitungen durch die Ordnung aber eine Diskontinuität in der Ableitung von .nn2n1st


Intuition durch algebraische Manipulation

Die Integration zur Berechnung der CF, die Form der bedingten Wahrscheinlichkeit in der Wahrscheinlichkeitsanalyse und die Synthese eines Hyperwürfels als Linearkombination von Quadranten lassen darauf schließen, dass die ursprüngliche Gleichverteilung wiederhergestellt und als Linearkombination einfacherer Dinge ausgedrückt wird . In der Tat kann sein PDF geschrieben werden

fX(x)=θ(x)θ(x1).

Stellen wir uns den Shift-Operator : Er wirkt auf jede Funktion indem er seinen Graphen um eine Einheit nach rechts verschiebt:Δf

(Δf)(x)=f(x1).

Formal können wir also für das PDF einer einheitlichen Variablen schreibenX

fX=(1Δ)θ.

Die PDF einer Summe von iid Uniformen ist die Faltung von mit sich - mal. Dies folgt aus der Definition einer Summe von Zufallsvariablen: Die Faltung zweier Funktionen und ist die FunktionnfXnfg

(fg)(x)=f(xy)g(y)dy.

Es ist leicht zu überprüfen, ob die Faltung mit . Ändern Sie einfach die Integrationsvariable von in :Δyy+1

(f(Δg))=f(xy)(Δg)(y)dy=f(xy)g(y1)dy=f((x1)y)g(y)dy=(Δ(fg))(x).

Für die PDF der Summe von iid Uniformen, können wir gehen nun algebraisch zu schreibenn

f=fXn=((1Δ)θ)n=(1Δ)nθn

(wobei "power" eine wiederholte Faltung bedeutet, keine punktweise Multiplikation!). Nun ist eine direkte, elementare Integration, die gibtθ nnθn

θn(x)=θ(x)xn1n1!.

Der Rest ist Algebra, weil der Binomialsatz gilt (wie in jeder kommutativen Algebra über den Real):

f=(1Δ)nθn=i=0n(1)i(ni)Δiθn.

Da sein Argument lediglich um , zeigt dies das PDF als eine lineare Kombination von verschobenen Versionen von , genau wie wir geometrisch abgeleitet haben:Δiifθ(x)xn1

f(x)=1(n1)!i=0n(1)i(ni)(xi)n1θ(xi).

(John Cook zitiert diese Formel später in seinem Blog-Beitrag unter Verwendung der Notation für .)(xi)+n1(xi)n1θ(xi)

Da überall eine glatte Funktion ist, tritt ein singuläres Verhalten der PDF nur an Stellen auf, an denen singulär ist (offensichtlich nur ) und an Stellen, die um nach rechts verschoben sind . Die Art dieses singulären Verhaltens - der Grad der Glätte - ist daher an allen Stellen gleich.xn1θ(x)01,2,,nn+1

Dies ist das Bild für , das (im linken Feld) die einzelnen Terme in der Summe und (im rechten Feld) die Teilsummen zeigt, die in der Summe selbst gipfeln (durchgezogene schwarze Kurve):n=8

Plotten Sie für n = 8


Abschließende Kommentare

Es ist nützlich zu bemerken, dass dieser letzte Ansatz endlich einen kompakten, praktischen Ausdruck für die Berechnung des PDF aus einer Summe von iid einheitlichen Variablen hervorgebracht hat. (Eine Formel für den CDF wird auf ähnliche Weise erhalten.)n

Der zentrale Grenzwertsatz hat hier wenig zu sagen. Immerhin konvergiert eine Summe von iid- Binomialvariablen zu einer Normalverteilung, aber diese Summe ist immer diskret: Es gibt überhaupt kein PDF! Wir sollten nicht darauf hoffen, dass die CLT eine Vorstellung von "Knicken" oder anderen Maßnahmen zur Unterscheidbarkeit eines PDFs vermittelt.


12
(+1) Fantastisch! Nun, wie lange hat es gedauert, bis du das alles zusammengestellt hast ?!
Kardinal

13
@Cardinal Dies war die letzte Frage, die ich gelesen habe, bevor ich letzten Montag die Macht verloren habe. In der darauffolgenden Woche boten die langen, dunklen Abende Gelegenheit, sich Gedanken zu machen :-) und zur Belustigung mehrere Antworten zu entwickeln. Nachdem die Stromversorgung am vergangenen Wochenende wiederhergestellt war, musste nur etwas Zeit für die Erstellung der Illustrationen und das Aufschreiben aufgewendet werden (was, wie ich gestehe, länger dauerte als erwartet). Ich hoffe, dass vielleicht ein Teil dieses Threads als Referenz für verwandte zukünftige Fragen zu Summen von Zufallsvariablen dienen könnte.
whuber

1
Beeindruckend. Ich wünschte, ich könnte diese Antwort "favorisieren" .
Rhabarber

2
Aber das ist absolut erstaunlich. Ich habe nie realisiert, wie tief eine so einfache Frage sein könnte. Es wird eine Weile dauern, bis ich deine Antwort gefunden habe, aber jetzt vielen Dank!
Tetragrammaton

6
Ich werde gegen die SE-Richtlinien für Kommentare verstoßen, indem ich sage, dass wir (alle von crossvalidate.com) Ihr Energieversorgungsunternehmen bestechen sollten, um den Strom häufiger
abzuschalten

1

Man könnte argumentieren, dass die Wahrscheinlichkeitsdichtefunktion einer einheitlichen Zufallsvariablen endlich ist,

so ist sein Integral die kumulative Dichtefunktion einer einheitlichen Zufallsvariablen stetig,

so ist die Wahrscheinlichkeitsdichtefunktion der Summe zweier gleichförmiger Zufallsvariablen stetig,

so ist das Integral der kumulativen Dichtefunktion der Summe zweier einheitlicher Zufallsvariablen glatt (kontinuierlich differenzierbar),

daher ist die Wahrscheinlichkeitsdichtefunktion der Summe von drei gleichförmigen Zufallsvariablen glatt.


1

Ich denke, das Überraschendste ist, dass Sie den scharfen Peak für . n=2

Der zentrale Grenzwertsatz besagt, dass für ausreichend große Stichproben die Verteilung des Mittelwerts (und die Summe ist nur die Mittelwertzeit , eine feste Konstante für jeden Graphen) ungefähr normal ist. Es stellt sich heraus, dass sich die gleichmäßige Verteilung in Bezug auf die CLT wirklich gut verhält (symmetrisch, keine schweren Schwänze (auch nicht viele Schwänze), keine Möglichkeit von Ausreißern), sodass für die Uniform die Stichprobengröße "groß genug" sein musste "ist nicht sehr groß (ungefähr 5 oder 6 für eine gute Annäherung), Sie sehen bereits die OK - Annäherung bei .nn=3

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.