Verständnis des Beta-Konjugats vor der Bayes'schen Folgerung über eine Frequenz


11

Es folgt ein Auszug aus Bolstads Einführung in die Bayes'sche Statistik .

Ich lese t

Für alle Experten da draußen mag dies trivial sein, aber ich verstehe nicht, wie der Autor zu dem Schluss kommt, dass wir keine Integration durchführen müssen, um die hintere Wahrscheinlichkeit für einen Wert von zu berechnen π. Ich verstehe den zweiten Ausdruck, der die Verhältnismäßigkeit ist und von dem alle Begriffe stammen ( Wahrscheinlichkeit x Prior) . Ich verstehe außerdem, dass wir uns keine Sorgen um den Nenner machen müssen, da nur der Zähler direkt proportional ist. Aber wenn wir zur dritten Gleichung übergehen, vergessen wir nicht den Nenner der Bayes-Regel? Wo ist es hin ? Und der von den Gammafunktionen berechnete Wert ist das nicht eine Konstante? Heben sich Konstanten im Bayes-Theorem nicht auf?


5
Es gibt nur eine mögliche Konstante, nämlich die, die die Funktion zu einer Wahrscheinlichkeitsdichte macht.
Xi'an

Antworten:


10

Der Punkt ist, dass wir wissen, wozu der Posterior proportional ist, und dass wir die Integration nicht durchführen müssen, um den (konstanten) Nenner zu erhalten, da wir erkennen, dass eine Verteilung mit einer Wahrscheinlichkeitsdichtefunktion proportional zu (wie der hintere) ist eine Beta-Verteilung. Da die Normalisierungskonstante für ein solches Beta-PDF Γ ( α + β ) istxα1×(1x)β1 wir das hintere PDF ohne Integration. Und ja, die Normalisierungskonstante im Bayes-Theorem ist eine Konstante (unter Berücksichtigung der beobachteten Daten und der zuvor angenommenen) genau wie die Normalisierungskonstante für die hintere Dichte.Γ(α+β)Γ(α)Γ(β)


8

Die Einrichtung

Sie haben dieses Modell: Die Dichten, für die f(p)=1 ist

pbeta(α,β)x|pbinomial(n,p)
g(x
f(p)=1B(α,β)pα1(1p)β1
und beachten Sie insbesondere, dass 1
g(x|p)=(nx)px(1p)nx
1B(α,β)=Γ(α+β)Γ(α)Γ(β).

Die implizite Version

Jetzt. Die posteriore Verteilung ist proportional zum vorherigen multipliziert mit der Wahrscheinlichkeit g . Wir können Konstanten (dh Dinge, die nicht p sind ) ignorieren und ergeben: h ( pfgp

h(p|x)f(p)g(p|x)=pα1(1p)β1pxpnx=pα+x1(1p)β+nx1.

α+xβ+nx1/B(α+x,β+nx)

1B(α+x,β+nx)=Γ(n+α+β)Γ(α+x)Γ(β+nx).
h(p|x)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1.

Man kann also das Wissen über die Struktur einer Beta-Distribution nutzen, um leicht einen Ausdruck für den Seitenzahn wiederherzustellen, anstatt eine unordentliche Integration und dergleichen zu durchlaufen.

Es kommt irgendwie zum vollen posterioren Bereich, indem implizit die Normalisierungskonstanten der Gelenkverteilung aufgehoben werden, was verwirrend sein kann.

Die explizite Version

Sie können die Dinge auch prozedural ausarbeiten, was klarer sein kann.

Es ist eigentlich gar nicht mehr so ​​lange. Beachten Sie, dass wir die gemeinsame Verteilung als ausdrücken können

f(p)g(x|p)=1B(α,β)(nx)pα+x1(1p)β+nx1
x
01f(p)g(x|p)dp=1B(α,β)(nx)01pα+x1(1p)β+nx1dp=1B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+nx)

h(p|x)=f(p)g(x|p)01f(p)g(x|p)dp=1B(α,β)(nx)pα+x1(1p)β+nx11B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+n)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1
which is the same thing we got previously.

7

General Remarks

To make the answer given by @Björn a bit more explicit and in the same time more general, we should remember that we arrived at the Bayes Theorem from

p(θ|X)×p(X)=p(X,θ)=p(X|θ)×p(θ)

p(θ|X)=p(X|θ)×p(θ)p(X) (Bayes Thereom)

where X represents the observed data and θ our unknown parameter we would like to make probabilistic inferences about -- in the question's case the parameter is an unknown frequency π. Let's not worry for now whether we are talking about vectors or scalars to keep it simple.

Marginalization in the continuous case leads to

p(X)=+p(X,θ)dθ=+p(X|θ)×p(θ)dθ

where the joint distribution p(X,θ) equals likelihood×prior as we have seen above. It is a constant since after 'integrating out' the parameter it only depends on constant terms.

Therefore we can reformulate the Bayes Theorem as

p(θ|X)=Const.×p(X|θ)×p(θ) with Const.=1p(X)=1p(X|θ)×p(θ)dθ

and thus arrive at the usual proportionality form of Bayes Theorem.

Application to the problem a hand

Now we are ready to simply plug in what we know since likelihood×prior in the question's case is of the form

p(X,θ)=p(X|θ)×p(θ)=Aθa+y1(1θ)b+ny1=Aθa1(1θ)b1

where a=a+y, b=b+ny and where A=1B(a,b)(ny) collects the constant terms from the binomial likelihood and the beta prior.

We can now use the answer given by @Björn to find that this integrates to the Beta function B(a,b) times the collection of constant terms A so that

p(X)=A01θa1(1θ)b1dθ=AB(a,b)

p(θ|X)=Aθa1(1θ)b1AB(a,b)=θa1(1θ)b1B(a,b)

Note, that any constant term in the joint distribution will allways cancel out, since it will appear in the nominator and the denominator at the same time (cf. the answer given by @jtobin) so we really do not have to bother.

Thus we recognize that our posterior distribution is in fact a beta distribution where we can simply update the prior's parameters a=a+y and b=b+ny to arrive at the posterior. This is why the beta distributed prior is called a conjugate prior.


This reasoning is similar to the implicit version of jtobin. We only look at parts of likelihood times prior that contain the parameter and collect everything else in the normalization constant. Thus we look at integration only as a final step which is legitimate, because the constants cancel out as jtobin has shown in his explicit version.
gwr
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.