Ich denke, der beste Weg, den Begriff der Wahrscheinlichkeit zu erklären, besteht darin, ein konkretes Beispiel zu betrachten. Angenommen, ich habe eine Stichprobe von IID-Beobachtungen aus einer Bernoulli-Verteilung mit unbekannter Erfolgswahrscheinlichkeit : , , also die gemeinsame Wahrscheinlichkeitsmassenfunktion der Stichprobe ist Dieser Ausdruck charakterisiert auch die Wahrscheinlichkeit von bei einer beobachteten Stichprobe : Aber wenn wir an denkenpXi∼Bernoulli(p)i=1,…,n
Pr[X=x∣p]=∏i=1npxi(1−p)1−xi.
px=(x1,…,xn)L(p∣x)=∏i=1npxi(1−p)1−xi.
pals Zufallsvariable ist diese Wahrscheinlichkeit keine Dichte: Sie ist jedoch
proportional zu einer Wahrscheinlichkeitsdichte, die ist warum wir sagen, dass es eine Wahrscheinlichkeit ist, dass ein bestimmter Wert ist, wenn die Stichprobe gegeben ist - es repräsentiert in gewissem Sinne die relative Plausibilität von , ein Wert für die Beobachtungen zu sein, die wir gemacht haben.
∫1p=0L(p∣x)dp≠1.
pp
Angenommen, und die Probe war . Intuitiv würden wir schließen, dass eher näher an als an , weil wir mehr beobachtet haben. In der Tat haben wir Wenn wir diese Funktion auf zeichnen , können wir sehen, wie die Wahrscheinlichkeit unsere Intuition bestätigt. Natürlich wissen wir nicht, dass der wahre Wert von - es könnte statt , aber die Wahrscheinlichkeitsfunktion sagt uns, dass der erstere viel weniger wahrscheinlich ist als der letztere. Aber wenn wir eine Wahrscheinlichkeit bestimmen wollenn=5x=(1,1,0,1,1)p10
L(p∣x)=p4(1−p).
p∈[0,1]pp=0.25p=0.8dass in einem bestimmten Intervall liegt, müssen wir die Wahrscheinlichkeit normalisieren: Da , folgt daraus, dass in Um eine
posteriore Dichte für , müssen wir mit multiplizieren : Tatsächlich ist dieser Posterior eine Beta-Verteilung mit den Parametern . Nun entsprechen die Flächen unter der Dichte den Wahrscheinlichkeiten.
p∫1p=0p4(1−p)dp=130p30fp(p∣x)=30p4(1−p).
a=5,b=2
Was wir hier im Wesentlichen getan haben, ist die angewandte Bayes-Regel: Hier ist eine vorherige Verteilung auf die Parameter , der Zähler ist die Wahrscheinlichkeit Das ist auch die gemeinsame Verteilung von
fΘ(θ∣x)=fX(x∣θ)fΘ(θ)fX(x).
fΘ(θ)θL(θ∣x)=fX(x∣θ)fΘ(θ)=fX,Θ(x,θ)X,Θ und der Nenner ist die marginale (bedingungslose) Dichte von , die durch Integrieren der Gelenkverteilung in Bezug auf , um die Normalisierungskonstante zu finden, die die Wahrscheinlichkeit zu einer Wahrscheinlichkeitsdichte mit macht in Bezug auf die Parameter. In unserem numerischen Beispiel haben wir implizit den Prior für , um auf einheitlich zu sein . Es kann gezeigt werden, dass für eine Bernoulli-Stichprobe, wenn der Prior , der Posterior für ebenfalls Beta ist, jedoch mit den Parametern ,
XθfΘ[0,1]Beta(a,b)fΘa∗=a+∑xib∗=b+n−∑xi. Wir nennen ein solches vorheriges
Konjugat (und bezeichnen dies als ein Bernoulli-Beta-Konjugatpaar).