Kann jemand konjugierte Prioren auf einfachste Weise erklären?


23

Ich habe eine Weile versucht, die Idee der konjugierten Prioritäten in der Bayes'schen Statistik zu verstehen, aber ich verstehe es einfach nicht. Kann jemand die Idee auf einfachste Weise erklären, vielleicht am Beispiel des "Gaußschen Prior"?

Antworten:


23

Ein Prior für einen Parameter hat fast immer eine bestimmte funktionale Form (in Bezug auf die Dichte im Allgemeinen geschrieben). Angenommen, wir beschränken uns auf eine bestimmte Familie von Distributionen. In diesem Fall reduziert sich die Auswahl unseres Prior auf die Auswahl der Parameter dieser Familie.

Man betrachte zum Beispiel ein normales Modell YiiidN(μ,σ2) . Nehmen wir der Einfachheit halber auch σ2 als bekannt an. Dieser Teil des Modells - das Modell für die Daten - bestimmt die Wahrscheinlichkeitsfunktion.

Um unser Bayes'sches Modell zu vervollständigen, benötigen wir hier einen Prior für μ .

Wie oben erwähnt, können wir häufig eine Verteilungsfamilie für unseren Prior für μ angebenμ und dann müssen wir nur die Parameter dieser Verteilung auswählen (zum Beispiel können häufig vorherige Informationen ziemlich vage sein - wie etwa, wo wir die Wahrscheinlichkeit der Konzentration haben möchten - statt einer sehr spezifischen funktionalen Form, und wir haben möglicherweise genug Freiheit, um zu modellieren, was wir wollen, indem wir die Parameter auswählen (zum Beispiel um einen früheren Mittelwert und eine Varianz abzugleichen).

Wenn sich herausstellt, dass der hintere Teil für μ aus derselben Familie wie der vorherige stammt, wird dieser vorherige als "konjugiert" bezeichnet.

(Was es konjugiert, ist die Art und Weise, wie es sich mit der Wahrscheinlichkeit verbindet.)

Nehmen wir also in diesem Fall einen Gaußschen Prior für μ (sagen wir μN(θ,τ2) ). Wenn wir das tun, sehen wir, dass der hintere Teil für μ ebenfalls Gauß ist. Folglich war der Gaußsche Prior ein konjugierter Prior für unser vorstehendes Modell.

Das ist wirklich alles - wenn der hintere Teil aus derselben Familie wie der vorherige stammt, ist es ein konjugierter Prior.

In einfachen Fällen können Sie ein Konjugat vor der Prüfung der Wahrscheinlichkeit identifizieren. Betrachten Sie beispielsweise eine Binomialwahrscheinlichkeit. Wenn man die Konstanten weglässt, sieht es aus wie eine Beta-Dichte in p ; und aufgrund der Art und Weise, wie sich Potenzen von p und (1p) verbinden, multipliziert es sich mit einem Beta, bevor sich auch ein Produkt der Potenzen von p und (1p) ergibt Die Beta ist ein Konjugat vor p in der Binomialwahrscheinlichkeit.

Im Gaußschen Fall ist es am einfachsten zu erkennen, dass dies geschieht, wenn man die Log-Dichten und die Log-Wahrscheinlichkeit berücksichtigt. Die log-Wahrscheinlichkeit wird quadratisch in und die Summe von zwei Quadratischen ist quadratisch, so dass eine quadratische log-prior + quadratische log-Wahrscheinlichkeit einen quadratischen posterior ergibt (jeder der Koeffizienten des Terms höchster Ordnung wird natürlich negativ sein).μ


9

Wenn Ihr Modell zu einer Exponentialfamilie gehört, dh wenn die Dichte der Verteilung die Form

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
in Bezug auf einegegebene dominierende Maßnahme(Lebesgue-, Zählen, & tc.), wobeits bezeichnen ein Skalarprodukt überRd und
T:XRdS:ΘRd
sind meßbaren Funktionen, die konjugierten priors aufθ durch Dichten der Form definiert
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[in Bezug auf einwillkürlich gewähltes dominierendes Maß dν aufΘ ] mit
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
undλΛR+ ,ξΞλT(X)

Die Wahl des dominierenden Maßes ist für die Familie der Prioren entscheidend. Wenn zum Beispiel eine normale mittlere Wahrscheinlichkeit für μ wie in Glen_bs Antwort vorliegt , führt die Auswahl des Lebesgue-Maßes dμ als dominierendes Maß dazu, dass normale Prioritäten konjugiert sind. Wählt man stattdessen (1+μ2)2dμ als dominierendes Maß, so liegen die konjugierten Priors in der Familie der Verteilungen mit Dichten

exp{α(μμ0)2}α>0,  μ0R
in Bezug auf dieses dominierende Maß und sind somit keine normalen Prioritäten mehr. Diese Schwierigkeit entspricht im Wesentlichen der Auswahl einer bestimmten Parametrisierung der Wahrscheinlichkeit und der Auswahl des Lebesgue-Maßes für diese Parametrisierung. Bei einer Wahrscheinlichkeitsfunktion gibt es kein inhärentes (oder intrinsisches oder referenzielles) dominierendes Maß im Parameterraum.

Außerhalb dieser exponentiellen Familienumgebung gibt es keine nicht triviale Verteilungsfamilie mit einer festen Unterstützung, die konjugierte Prioritäten zulässt. Dies ist eine Folge des Darmois-Pitman-Koopman-Lemmas .


11
"Einfach ausgedrückt?" Vielleicht wäre eine Erklärung, die keine Vorkenntnisse über Maßnahmen voraussetzt, für das OP nützlicher.

3
Leider fürchte ich, dass konjugierte Prioritäten ohne einen gewissen Hintergrund bedeutungslos sind (obwohl dies das am besten gehütete Geheimnis im Universum ist).
Xi'an,

6
Meiner Meinung nach können "einfachste mögliche Begriffe" interpretiert werden, und eine Erklärung, die sich fortgeschrittener Mathematik wie der Maßtheorie bedient, ist in gewissem Sinne immer noch "einfach", vielleicht sogar "einfacher" als eine Erklärung, die solche Maschinerie vermeidet. In jedem Fall kann eine solche Erklärung für jemanden sehr aufschlussreich sein, der den erforderlichen Hintergrund hat, um sie zu verstehen, und es ist harmlos, eine Antwort wie diese in eine Liste mit verschiedenen Erklärungsmöglichkeiten für ein Thema aufzunehmen. Wir schreiben Antworten nicht nur für OP, sondern für alle zukünftigen Leser.
LittleO

1
@LBogaardt Ihre Kritik würde mehr Gewicht haben, wenn Sie auf eine oder mehrere Fragen verweisen könnten, bei denen Sie der Meinung sind, dass diese Antwort sowohl thematisch als auch auf einer angemesseneren Ebene wäre. Bitte beachten Sie, dass "einfach" kein klar definierter Begriff ist und unterschiedliche subjektive Interpretationen hat. Ungeachtet dessen wäre es ungültig, es mit "mathematisch nicht komplex" zu kombinieren, wie es in Ihren Kommentaren vorgeschlagen wird.
Whuber

2
Xi'ans Antwort ist für mich nicht nutzlos. Ich habe etwas gelernt.
littleO

2

Ich benutze gerne den Begriff "Kernel" einer Distribution. Hier belassen Sie nur die Teile, die vom Parameter abhängen. Ein paar einfache Beispiele.

p(μ|a,b)=K1×exp(aμ2+bμ)
KK=exp(aμ2+bμ)dμ=πaexp(b24a) The connection with standard mean/variance parameters is E(μ|a,b)=b2a and Var(μ|a,b)=12a

Beta kernel

p(θ|a,b)=K1×θa(1θ)b
Where K=θa(1θ)bdθ=Beta(a+1,b+1)

When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

For some constant Q and some function f(μ). If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood. If we take the normal likelihood with unit variance, the above looks like

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.


1
(+1) I appreciate the pseudo-data intuition!
Xi'an

0

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior


How does this explain what a conjugate prior is?
LBogaardt

ok I'll edit that.
Thomas G.
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.