Normale Annäherung an die Poisson-Verteilung


12

Hier in Wikipedia heißt es:

Für ausreichend große Werte von λ (sagen wir λ>1000 ) ist die Normalverteilung mit dem Mittelwert λ und der Varianz λ (Standardabweichung ) eine hervorragende Annäherung an die Poisson-Verteilung. Wenn größer als ungefähr 10 ist, ist die Normalverteilung eine gute Annäherung, wenn eine geeignete Kontinuitätskorrektur durchgeführt wird, dh wobei (Kleinbuchstabe) eine nicht negative ganze Zahl ist, durch ersetzt wirdλλP(Xx),xP(Xx+0.5).

FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ)

Leider wird dies nicht zitiert. Ich möchte dies mit einiger Genauigkeit zeigen / beweisen können. Wie kann man eigentlich sagen, dass die Normalverteilung eine gute Annäherung ist, wenn , wie quantifiziert man diese 'ausgezeichnete' Näherung, welche Maße wurden verwendet?λ>1000

Das weiteste, was ich damit zu tun habe, ist hier, wo John über die Verwendung des Berry-Esseen-Theorems spricht und den Fehler in den beiden CDFs approximiert. Soweit ich sehen kann, versucht er keine Werte von .λ1000


6
Sie können es nicht beweisen , ohne "gut" zu definieren. (Sie können ein asymptotisches Ergebnis nachweisen, aber Sie können es bei einer bestimmten Stichprobengröße nicht als "gut" deklarieren, ohne Ihre Kriterien zu definieren.) Sie können sein Verhalten anhand eines direkten Beispiels demonstrieren (anhand dessen die Leute sehen können, wie gut "gut" ist). ist durch ihre eigenen Lichter). Für typische Kriterien, die Menschen verwenden, funktioniert eine Kontinuitätskorrektur gut für λ>10 , solange Sie nicht tief in den Schwanz gehen.
Glen_b -State Monica

1
(Genauer gesagt, wenn Ihr Kriterium ein absoluter Fehler ist, können Sie bei kleinen Stichprobengrößen wie 10 möglicherweise überall „gut“ erreichen, aber die meisten Menschen interessieren sich für etwas, das dem relativen Fehler näher kommt.)
Glen_b - Monica neu installieren

Antworten:


7

Angenommen, X ist Poisson mit dem Parameter λ und Y ist normal mit dem Mittelwert und der Varianz λ . Es scheint mir, dass der geeignete Vergleich zwischen Pr(X=n) und Pr(Y[n12,n+12]). Hier schreibe ich der Einfachheit halbern=λ+αλ , das heißt, sind wir daran interessiertwennnentsprichtαvon der mittleren Standardabweichungen.

Also habe ich betrogen. Ich habe Mathematica benutzt. Also sowohl als auch Pr ( Y [Pr(X=n)sind asymptotisch gegenüber Pr(Y[n12,n+12]) als& lgr;. Ihr Unterschied ist jedoch asymptotisch zu α(α2-3)e-α2/

12πλeα2/2
λ Wenn Sie dies als Funktion vonα darstellen, erhalten Sie dieselbe Kurve wie in der vorletzten Abbildung unterhttp://www.johndcook.com/blog/normal_approx_to_poisson/.
α(α23)eα2/262πλ
α

Hier sind die Befehle, die ich verwendet habe:

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

Auch mit ein wenig Experimentieren, scheint es mir , dass eine bessere asymptotische Annäherung an ist Pr ( Y [ n - α 2 / 6 , n + 1 - α 2 / 6 ] ) . Dann ist der Fehler - ( 5 α 4 - 9 α 2 - 6 ) e - α 2 / 2Pr(X=n)Pr(Y[nα2/6,n+1α2/6]) , dieBegriff ist

(5α49α26)eα2/2722πλ3/2
mal kleiner.λ

2

H0:N(λ,λ)λ

  • Wählen Sie eine repräsentative, hypothetische Stichprobengröße n und stellen Sie das Signifikanzniveau des Tests auf einen typischen Wert ein, z. B. 5%.

λβ von einem KS-Normalitätstest mit Ihrer ausgewählten Signifikanz % der Zeit Niveau.

Wie auch immer, das ist nur ein Weg, um ein Gefühl von "Güte der Passform" zu bekommen. Alle stützen sich jedoch auf einige subjektive Vorstellungen von "Güte", die Sie selbst definieren müssen.


2

Die Ableitung aus der Binomialverteilung kann Ihnen einen Einblick verschaffen.

Wir haben eine binomische Zufallsvariable;

p(x)=(nx)px(1p)nx

Dies kann alternativ rekursiv berechnet werden;

p(x)=(nx+1)px(1p)p(x1)

Wenn Sie den Ausgangszustand beibehalten;

p(0)=(1p)n

npp(x)(np=λ)

P(X=i)=(ni)px(1p)nx

p=λ/n

P(X=i)=n!(ni)!i!(λn)i(1λn)ni

We switch some variables around and evaluate;

P(X=i)=n(n1)(n2)(ni+1)niλii!(1λn)n(1λn)i

From calculus we know that limn(1+x/n)n=ex. We also know that [n(n1)(n2)(ni+1)]/ni1 because both the top and bottom are polynomials of degree i.

This leads to the conclusion that as n:

P(X=i)eλλii!

You can then verify that E(X)=λ and Var(X)=λ via the definition. We know that the binomial distribution approximates the normal under the conditions of the De Moivre-Laplace Theorem as long as you correct for the continuity, which is why P(Xx) is replaced by P(Xx+0.5).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.