Zusammenfassung
Sie haben einen Teil der unter Zentraler Grenzwertsatz für Stichprobenmediane beschriebenen Konstruktion wiederentdeckt , die eine Analyse des Medians einer Stichprobe veranschaulicht. (Die Analyse gilt offensichtlich mutatis mutandis für jedes Quantil, nicht nur für den Median). Daher ist es nicht verwunderlich, dass bei großen Beta-Parametern (entsprechend großen Stichproben) eine Normalverteilung unter der in der Frage beschriebenen Transformation auftritt. Interessant ist, wie nahe die Normalverteilung auch bei kleinen Beta-Parametern ist. Das verdient eine Erklärung.
Ich werde unten eine Analyse skizzieren. Um diesen Beitrag in einem angemessenen Umfang zu halten, ist viel suggestives Winken von Hand erforderlich: Ich möchte nur auf die Schlüsselideen hinweisen. Lassen Sie mich deshalb die Ergebnisse hier zusammenfassen:
Wenn in der Nähe von β liegt , ist alles symmetrisch. Dies bewirkt, dass die transformierte Verteilung bereits normal aussieht.αβ
Die Funktionen der Form sehen an erster Stelle ziemlich normal aus, selbst für kleine Werte von α und β (vorausgesetzt, beide überschreiten 1 und ihr Verhältnis ist nicht zu groß) nahe 0 oder 1 ).Φα−1(x)(1−Φ(x))β−1αβ101
Die scheinbare Normalität der transformierten Verteilung beruht auf der Tatsache, dass ihre Dichte aus einer Normaldichte multipliziert mit einer Funktion in (2) besteht.
Wenn und β zunehmen, kann die Abweichung von der Normalität in den übrigen Ausdrücken in einer Taylorreihe für die logarithmische Dichte gemessen werden. Der Term der Ordnung n nimmt proportional zu den ( n - 2 ) / 2 Potenzen von α und β ab . Dies impliziert, dass schließlich für ausreichend großes α und β alle Terme der Leistung n = 3 oder größer relativ klein geworden sind und nur noch ein Quadrat übrig bleibt: Dies ist genau die logarithmische Dichte einer Normalverteilung.αβn(n−2)/2αβαβn=3
Zusammengenommen erklären diese Verhaltensweisen gut, warum selbst für kleine und β die nicht-extremen Quantile einer iid-Normal-Stichprobe ungefähr normal aussehen.αβ
Analyse
Da es nützlich sein kann, zu verallgemeinern, sei F eine beliebige Verteilungsfunktion, obwohl wir F = Φ im Auge haben .FF=Φ
Die Dichtefunktion einer Beta ( α , β ) -Variablen ist definitionsgemäß proportional zug(y)(α,β)
yα−1(1−y)β−1dy.
Wenn die Wahrscheinlichkeitsintegraltransformation von x ist und f für die Ableitung von F geschrieben wird , ist es unmittelbar, dass x eine Dichte proportional zu haty=F(x)xfFx
G(x;α,β)=F(x)α−1(1−F(x))β−1f(x)dx.
Da es sich um eine monotone Transformation einer stark unimodalen Verteilung (Beta) handelt, ist die transformierte Verteilung auch unimodal, sofern eher seltsam ist. Untersuchen wir den Logarithmus seiner Dichte, um zu untersuchen, wie nahe er dem Normalen kommt.F
logG(x;α,β)=(α−1)logF(x)+(β−1)log(1−F(x))+logf(x)+C(1)
wobei eine irrelevante Normalisierungskonstante ist.C
Erweitern Sie die Komponenten von in der Taylor-Reihe, um drei um einen Wert x 0 (der einem Modus nahe kommt) zu ordnen . Zum Beispiel können wir die Erweiterung von log F as schreibenlogG(x;α,β)x0logF
logF(x)=cF0+cF1(x−x0)+cF2(x−x0)2+cF3h3
für einige mit | h | ≤ | x - x 0 | . Verwenden Sie eine ähnliche Schreibweise für log ( 1 - F ) und log f . h|h|≤|x−x0|log(1−F)logf
Lineare Ausdrücke
The linear term in (1) thereby becomes
g1(α,β)=(α−1)cF1+(β−1)c1−F1+cf1.
When x0 is a mode of G(;α,β), this expression is zero. Note that because the coefficients are continuous functions of x0, as α and β are varied, the mode x0 will vary continuously too. Moreover, once α and β are sufficiently large, the cf1 term becomes relatively inconsequential. If we aim to study the limit as α→∞ and β→∞ for which α:β stays in constant proportion γ, we may therefore once and for all choose a base point x0 for which
γcF1+c1−F1=0.
A nice case is where γ=1, where α=β throughout, and F is symmetric about 0. In that case it is obvious x0=F(0)=1/2.
We have achieved a method whereby (a) in the limit, the first-order term in the Taylor series vanishes and (b) in the special case just described, the first-order term is always zero.
Quadratic terms
These are the sum
g2(α,β)=(α−1)cF2+(β−1)c1−F2+cf2.
Comparing to a Normal distribution, whose quadratic term is −(1/2)(x−x0)2/σ2, we may estimate that −1/(2g2(α,β)) is approximately the variance of G. Let us standardize G by rescaling x by its square root. we don't really need the details; it suffices to understand that this rescaling is going to multiply the coefficient of (x−x0)n in the Taylor expansion by (−1/(2g2(α,β)))n/2.
Remainder term
Here's the punchline: the term of order n in the Taylor expansion is, according to our notation,
gn(α,β)=(α−1)cFn+(β−1)c1−Fn+cfn.
After standardization, it becomes
g′n(α,β)=gn(α,β)(−2g2(α,β))n/2).
Both of the gi are affine combination of α and β. By raising the denominator to the n/2 power, the net behavior is of order −(n−2)/2 in each of α and β. As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.
The case when F is normal
The vanishing of the remainder term is particularly fast when F is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα−1(1−F)β−1 and normality.
This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in x−x0=x.
Here is a plot showing how the standardized fourth order term changes with small values of α>1:
The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ−1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.