Welche Verteilung folgt der inverse Normal-CDF einer Beta-Zufallsvariablen?


14

Angenommen, Sie definieren:

XBeta(α,β)

YΦ1(X)

wobei Φ1 die Inverse der CDF der Standardnormalverteilung .

Meine Frage ist: Gibt es eine einfache Verteilung, der Y folgt, oder die sich annähern kann Y? Ich frage, weil ich aufgrund der Simulationsergebnisse (siehe unten) den starken Verdacht habe, dass Y zu einer Normalverteilung konvergiert, wenn α und β hoch sind, aber ich weiß nicht, warum dies mathematisch der Fall ist. (Natürlich, wenn α=1;β=1 , wäre X gleichförmig und Y wäre die Standardnormale, aber warum würde es für höhere Werte zutreffen?).

Wenn dies zu einer Normalen konvergiert, wie lauten die Parameter dieser Normalen in Bezug auf α und β ? (Ich gehe davon aus, dass der Mittelwert Φ1(αα+β)da dies die Transformation des Modus ist, aber ich kenne die Standardabweichung nicht).

(Anders ausgedrückt könnte man fragen: " Konvergiert Φ(Norm(μ,σ)) für eine Richtung von μ und zu einer Beta-Verteilung σ?"? Ich bin nicht sicher, ob dies einfacher zu beantworten ist.)

Simulationsergebnisse

Hier zeige ich, warum ich den Verdacht habe, dass das Ergebnis normal ist (da ich es nicht mit Mathe belegen kann). Die Simulation von Y kann in R mit qnormund erfolgen rnorm. Wählen Sie zum Beispiel die hohen Parameter α=3000 und β=7000 :

hist(qnorm(rbeta(5000, 3000, 7000)))

Dies sieht normal aus qqnormund der Shapiro-Wilk-Test (bei dem die Normalität die Nullhypothese ist) legt dies ebenfalls nahe:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

Um die Normalität etwas genauer zu untersuchen, führe ich 2.000 Simulationen durch, wobei jedes Mal 5.000 Werte von simuliert werden Y, und führe dann den Test durch, um ihn mit dem Normalen zu vergleichen. (Ich habe 5K-Werte gewählt, da dies das Maximum shapiro.testist, das verarbeitet werden kann, und die Leistung maximiert, um Abweichungen von der Norm zu erkennen.)

Wenn die Verteilung wirklich normal wäre, würden wir erwarten, dass die p-Werte einheitlich sind (da die Null wahr ist). Sie sind in der Tat nahezu einheitlich, was darauf hindeutet, dass die Verteilung sehr normal ist:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

Einige Experimente haben gezeigt, dass die Verteilung umso normaler wird, je höher α und β sind (z. B. rbeta(5000, 3, 7)ist sie ziemlich weit vom Normalen entfernt, aber versuchen hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))Sie es und es scheint irgendwo dazwischen zu liegen).


2
Hier passiert nichts Interessantes. Wenn und β groß werden, nehmen wir an, dass sie im gleichen Verhältnis bleiben, oder zumindest, dass α / ( α + β ) von 0 und 1 entfernt bleibt . Dann wird die Beta ( α , β ) -Verteilung normal und konzentriert sich in einem willkürlich engen Bereich. Φ - 1 ist differenzierbar und wird im Wesentlichen linear, wenn Sie lediglich eine lineare Transformation einer nahezu normalen Variablen betrachten. Dieses Ergebnis hat nichts mehr als das zu tun mit Φ - 1αβα/(α+β)01(α,β)Φ1Φ1selbst und fügt keine Informationen über Beta-Distributionen hinzu.
whuber

1
@whuber Das macht Sinn für große und β (ich hatte einige Simulationen, die mich glauben ließen, dass dies näher an der Normalität als die entsprechende Normalität für Beta lag, aber beim erneuten Ausführen glaube ich, dass ich zu der Zeit einen Fehler hatte). Irgendwelche Gedanken zu α = 2 ; β = 2 & le ; Dist ist sehr weit vom Normalen entfernt, aber qnorm davon ist ziemlich nah. αβα=2β=2
David Robinson

1
@whuber zB versuchen hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)), dann hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value)). Mit anderen Worten, wenn es normal, weil das Beta gleichförmig ist, wenn α und β hoch sind, ist es, weil das Beta ungefähr normal ist - aber warum funktioniert es, wenn sie gleich sind und dazwischen liegen, wo es keines ist normal oder uniform? α=β=1αβ
David Robinson

5
Das ist definitiv interessanter! Sie haben Recht, dass Beta nicht sehr nahe an Normal liegt, aber dass die Transformation selbst für kleine Beta-Parameter in etwa normal ist. Die Abweichungen von der Normalität machen sich in den Schwänzen um oder mehr bemerkbar, sind jedoch im gesamten Verteilungskörper bemerkenswert gering. Letztendlich ist dies auf das Potenzgesetzverhalten der Beta-Schwänze zurückzuführen. Z=±3
Whuber

Antworten:


7

Zusammenfassung

Sie haben einen Teil der unter Zentraler Grenzwertsatz für Stichprobenmediane beschriebenen Konstruktion wiederentdeckt , die eine Analyse des Medians einer Stichprobe veranschaulicht. (Die Analyse gilt offensichtlich mutatis mutandis für jedes Quantil, nicht nur für den Median). Daher ist es nicht verwunderlich, dass bei großen Beta-Parametern (entsprechend großen Stichproben) eine Normalverteilung unter der in der Frage beschriebenen Transformation auftritt. Interessant ist, wie nahe die Normalverteilung auch bei kleinen Beta-Parametern ist. Das verdient eine Erklärung.

Ich werde unten eine Analyse skizzieren. Um diesen Beitrag in einem angemessenen Umfang zu halten, ist viel suggestives Winken von Hand erforderlich: Ich möchte nur auf die Schlüsselideen hinweisen. Lassen Sie mich deshalb die Ergebnisse hier zusammenfassen:

  1. Wenn in der Nähe von β liegt , ist alles symmetrisch. Dies bewirkt, dass die transformierte Verteilung bereits normal aussieht.αβ

  2. Die Funktionen der Form sehen an erster Stelle ziemlich normal aus, selbst für kleine Werte von α und β (vorausgesetzt, beide überschreiten 1 und ihr Verhältnis ist nicht zu groß) nahe 0 oder 1 ).Φα1(x)(1Φ(x))β1αβ101

  3. Die scheinbare Normalität der transformierten Verteilung beruht auf der Tatsache, dass ihre Dichte aus einer Normaldichte multipliziert mit einer Funktion in (2) besteht.

  4. Wenn und β zunehmen, kann die Abweichung von der Normalität in den übrigen Ausdrücken in einer Taylorreihe für die logarithmische Dichte gemessen werden. Der Term der Ordnung n nimmt proportional zu den ( n - 2 ) / 2 Potenzen von α und β ab . Dies impliziert, dass schließlich für ausreichend großes α und β alle Terme der Leistung n = 3 oder größer relativ klein geworden sind und nur noch ein Quadrat übrig bleibt: Dies ist genau die logarithmische Dichte einer Normalverteilung.αβn(n2)/2αβαβn=3

Zusammengenommen erklären diese Verhaltensweisen gut, warum selbst für kleine und β die nicht-extremen Quantile einer iid-Normal-Stichprobe ungefähr normal aussehen.αβ


Analyse

Da es nützlich sein kann, zu verallgemeinern, sei F eine beliebige Verteilungsfunktion, obwohl wir F = Φ im Auge haben .FF=Φ

Die Dichtefunktion einer Beta ( α , β ) -Variablen ist definitionsgemäß proportional zug(y)(α,β)

yα1(1y)β1dy.

Wenn die Wahrscheinlichkeitsintegraltransformation von x ist und f für die Ableitung von F geschrieben wird , ist es unmittelbar, dass x eine Dichte proportional zu haty=F(x)xfFx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

Da es sich um eine monotone Transformation einer stark unimodalen Verteilung (Beta) handelt, ist die transformierte Verteilung auch unimodal, sofern eher seltsam ist. Untersuchen wir den Logarithmus seiner Dichte, um zu untersuchen, wie nahe er dem Normalen kommt.F

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

wobei eine irrelevante Normalisierungskonstante ist.C

Erweitern Sie die Komponenten von in der Taylor-Reihe, um drei um einen Wert x 0 (der einem Modus nahe kommt) zu ordnen . Zum Beispiel können wir die Erweiterung von log F as schreibenlogG(x;α,β)x0logF

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

für einige mit | h | | x - x 0 | . Verwenden Sie eine ähnliche Schreibweise für log ( 1 - F ) und log f . h|h||xx0|log(1F)logf

Lineare Ausdrücke

The linear term in (1) thereby becomes

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

When x0 is a mode of G(;α,β), this expression is zero. Note that because the coefficients are continuous functions of x0, as α and β are varied, the mode x0 will vary continuously too. Moreover, once α and β are sufficiently large, the c1f term becomes relatively inconsequential. If we aim to study the limit as α and β for which α:β stays in constant proportion γ, we may therefore once and for all choose a base point x0 for which

γc1F+c11F=0.

A nice case is where γ=1, where α=β throughout, and F is symmetric about 0. In that case it is obvious x0=F(0)=1/2.

We have achieved a method whereby (a) in the limit, the first-order term in the Taylor series vanishes and (b) in the special case just described, the first-order term is always zero.

Quadratic terms

These are the sum

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

Comparing to a Normal distribution, whose quadratic term is (1/2)(xx0)2/σ2, we may estimate that 1/(2g2(α,β)) is approximately the variance of G. Let us standardize G by rescaling x by its square root. we don't really need the details; it suffices to understand that this rescaling is going to multiply the coefficient of (xx0)n in the Taylor expansion by (1/(2g2(α,β)))n/2.

Remainder term

Here's the punchline: the term of order n in the Taylor expansion is, according to our notation,

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

After standardization, it becomes

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

Both of the gi are affine combination of α and β. By raising the denominator to the n/2 power, the net behavior is of order (n2)/2 in each of α and β. As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.

The case when F is normal

The vanishing of the remainder term is particularly fast when F is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα1(1F)β1 and normality.

This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in xx0=x.

Here is a plot showing how the standardized fourth order term changes with small values of α>1:

Figure

The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.


2

Convergence

Suppose that α=β and let α and take any small ε>0. Then var(X)0. By Chebyshev's inequality we have P[|X0.5|>ε]0 and P[|Y|>ε]0. This means that Y converges in probability (not in distribution actually it converges in distribution - to singleton).

Exact distribution

Denote by fX the density of beta distribution. Then your variable Y has density

fY(y)=fX(Φ(y))ϕ(y).
Since Φ does not have a closed form I believe that this is the furthest you can get (analytically). You can try to put it into FullSimplify function in Wolfram Mathematica to see if it finds some better form.

Here is the density in R so you can plot it instead of histogram.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modification

However, you are maybe interested in distribution of

Z=Φ1(αX)
. (still assuming α=β) This may be useful because var(αX)1/8 (useful because it is not zero).

1

Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, take kN, k2. Let XBeta(k,k). I want to argue that Y=Φ1(X) is approximately normal.

Now let n=2k1. We start by drawing n i.i.d. uniformly distributed random variables U1,,Un. Next, form the order statistics U(1)U(n).

It is well known that U(k)Beta(k,n+1k), thus:

U(k)Beta(k,k)

In other words: The sample median of n i.i.d. uniformly distributed random variables is Beta(k,k) distributed.

Now let's transform by Zi=Φ1(Ui). Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)Z(n)). Since Φ1 is strictly increasing, it follows that:

Φ1(U(k))=Z(k)

Therefore, to show that Y is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.

For k large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2, I will let everyone's gut feeling do the speaking.

For ab (but not too different) one can argue similarly by using corresponding quantiles.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.