Wahrscheinlichkeit vs. Wahrscheinlichkeit

Ich habe Schwierigkeiten mit Wahrscheinlichkeiten . Ich verstehe den Satz von Bayes

p (A | B, H) = \frac{p (B | A, H) p (A | H)}{p (B | H)}

$p(A|B, \mathcal{H}) = \frac{p(B|A, \mathcal{H}) p(A|\mathcal{H})}{p(B|\mathcal{H})}$

was direkt aus der Anwendung von . In meiner Interpretation sind die -Funktionen im Bayes-Theorem also irgendwie alle Wahrscheinlichkeiten, entweder marginal oder bedingt. Ich habe also tatsächlich gedacht, dass die Wahrscheinlichkeit als Konzept eher eine häufigere Sicht auf die inverse Wahrscheinlichkeit ist. $p(A,B) = p(B) \cdot p(A|B) = p (A) p(B|A) = p(B,A)$ $p(\cdot)$

Ich habe jetzt jedoch wiederholt Aussagen in den Büchern der Bayesianisten gesehen, die besagen, dass die Wahrscheinlichkeit keine Wahrscheinlichkeitsverteilung ist. Als ich gestern MacKays Buch las, stolperte ich über die folgende Aussage

"[...] es ist wichtig zu beachten, dass die Begriffe Wahrscheinlichkeit und Wahrscheinlichkeit keine Synonyme sind. Die Größe ist eine Funktion von und . Für festes , definiert eine Wahrscheinlichkeit über , für feste , definiert die likeihood von .“ $P(n_b|u,N)$ $n_B$ $u$ $u$ $P(n_b|u,N)$ $n_B$ $n_B$ $P(n_B|u,N)$ $u$

Ich verstehe das wie folgt: ist eine Wahrscheinlichkeit von unter gegebenem , also eine Funktion . Wenn wir jedoch einen gegebenen Wert und die Abhängigkeit von von verschiedenen bewerten , verwenden wir tatsächlich eine andere Funktion . $p(A|B)$ $A$ $B$ $\text{probability} : \mathcal{A}\to [0,1]$ $a \in A$ $p(A=a|B)$ $b\in\mathcal{B}$ $L : \mathcal{B}\to[0,1]$
Ist diese Interpretation richtig?
Kann man dann sagen, dass Maximum-Likelihood-Methoden durch den Bayes'schen Satz motiviert werden könnten, bei dem der Prior als konstant gewählt wird?

probability likelihood

— wirrbel
quelle

Als Element der Antwort rate ich Ihnen die Antwort mit Links von Stephane Laurent in mathoverflow.net/questions/10971/… . Ich hoffe es hilft.

— Peuhp

Ich denke, der beste Weg, den Begriff der Wahrscheinlichkeit zu erklären, besteht darin, ein konkretes Beispiel zu betrachten. Angenommen, ich habe eine Stichprobe von IID-Beobachtungen aus einer Bernoulli-Verteilung mit unbekannter Erfolgswahrscheinlichkeit : , , also die gemeinsame Wahrscheinlichkeitsmassenfunktion der Stichprobe ist Dieser Ausdruck charakterisiert auch die Wahrscheinlichkeit von bei einer beobachteten Stichprobe : Aber wenn wir an denken $p$ $X_i \sim {\rm Bernoulli}(p)$ $i = 1, \ldots, n$

Pr [X = x ∣ p] = \prod_{i = 1}^{n} p^{x_{i}} (1 - p)^{1 - x_{i}} .

$\Pr[{\boldsymbol X} = \boldsymbol x \mid p] = \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}.$

p

$p$

x = (x_{1}, \dots, x_{n})

$\boldsymbol x = (x_1, \ldots, x_n)$

L (p ∣ x) = \prod_{i = 1}^{n} p^{x_{i}} (1 - p)^{1 - x_{i}} .

$L(p \mid \boldsymbol x) = \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}.$

p

$p$ als Zufallsvariable ist diese Wahrscheinlichkeit keine Dichte: Sie ist jedoch proportional zu einer Wahrscheinlichkeitsdichte, die ist warum wir sagen, dass es eine Wahrscheinlichkeit ist, dass ein bestimmter Wert ist, wenn die Stichprobe gegeben ist - es repräsentiert in gewissem Sinne die relative Plausibilität von , ein Wert für die Beobachtungen zu sein, die wir gemacht haben.

\int_{p = 0}^{1} L (p ∣ x) d p \neq 1.

$\int_{p=0}^1 L(p \mid \boldsymbol x) \, dp \ne 1.$

p

$p$

p

$p$

Angenommen, und die Probe war . Intuitiv würden wir schließen, dass eher näher an als an , weil wir mehr beobachtet haben. In der Tat haben wir Wenn wir diese Funktion auf zeichnen , können wir sehen, wie die Wahrscheinlichkeit unsere Intuition bestätigt. Natürlich wissen wir nicht, dass der wahre Wert von - es könnte statt , aber die Wahrscheinlichkeitsfunktion sagt uns, dass der erstere viel weniger wahrscheinlich ist als der letztere. Aber wenn wir eine Wahrscheinlichkeit bestimmen wollen $n = 5$ $\boldsymbol x = (1, 1, 0, 1, 1)$ $p$ $1$ $0$

L (p ∣ x) = p^{4} (1 - p) .

$L(p \mid \boldsymbol x) = p^4 (1 - p).$

p \in [0, 1]

$p \in [0,1]$

p

$p$

p = 0.25

$p = 0.25$

p = 0.8

$p = 0.8$ dass in einem bestimmten Intervall liegt, müssen wir die Wahrscheinlichkeit normalisieren: Da , folgt daraus, dass in Um eine posteriore Dichte für , müssen wir mit multiplizieren : Tatsächlich ist dieser Posterior eine Beta-Verteilung mit den Parametern . Nun entsprechen die Flächen unter der Dichte den Wahrscheinlichkeiten.

p

$p$

\int_{p = 0}^{1} p^{4} (1 - p) d p = \frac{1}{30}

$\int_{p=0}^1 p^4(1-p) \, dp = \frac{1}{30}$

p

$p$

30

$30$

f_{p} (p ∣ x) = 30 p^{4} (1 - p) .

$f_p(p \mid \boldsymbol x) = 30p^4(1-p).$

a = 5, b = 2

$a = 5, b = 2$

Was wir hier im Wesentlichen getan haben, ist die angewandte Bayes-Regel: Hier ist eine vorherige Verteilung auf die Parameter , der Zähler ist die Wahrscheinlichkeit Das ist auch die gemeinsame Verteilung von

f_{Θ} (θ ∣ x) = \frac{f_{X} (x ∣ θ) f_{Θ} (θ)}{f_{X} (x)} .

$f_{\boldsymbol \Theta}(\boldsymbol \theta \mid \boldsymbol x) = \frac{f_{\boldsymbol X}(\boldsymbol x \mid \boldsymbol \theta) f_{\boldsymbol \Theta}(\boldsymbol \theta)}{f_{\boldsymbol X}(\boldsymbol x)}.$

f_{Θ} (θ)

$f_{\boldsymbol \Theta}(\boldsymbol \theta)$

θ

$\boldsymbol \theta$

L (θ ∣ x) = f_{X} (x ∣ θ) f_{Θ} (θ) = f_{X, Θ} (x, θ)

$L(\boldsymbol \theta \mid \boldsymbol x) = f_{\boldsymbol X}(\boldsymbol x \mid \boldsymbol \theta) f_{\boldsymbol \Theta}(\boldsymbol \theta) = f_{\boldsymbol X, \boldsymbol \Theta}(\boldsymbol x, \boldsymbol \theta)$

X, Θ

$\boldsymbol X, \boldsymbol \Theta$ und der Nenner ist die marginale (bedingungslose) Dichte von , die durch Integrieren der Gelenkverteilung in Bezug auf , um die Normalisierungskonstante zu finden, die die Wahrscheinlichkeit zu einer Wahrscheinlichkeitsdichte mit macht in Bezug auf die Parameter. In unserem numerischen Beispiel haben wir implizit den Prior für , um auf einheitlich zu sein . Es kann gezeigt werden, dass für eine Bernoulli-Stichprobe, wenn der Prior , der Posterior für ebenfalls Beta ist, jedoch mit den Parametern ,

X

$\boldsymbol X$

θ

$\boldsymbol \theta$

f_{Θ}

$f_{\boldsymbol \Theta}$

[0, 1]

$[0,1]$

B e t a (a, b)

${\rm Beta}(a,b)$

f_{Θ}

$f_{\boldsymbol \Theta}$

a^{*} = a + \sum x_{i}

$a^* = a+\sum x_i$

b^{*} = b + n - \sum x_{i}

$b^* = b + n - \sum x_i$ . Wir nennen ein solches vorheriges Konjugat (und bezeichnen dies als ein Bernoulli-Beta-Konjugatpaar).

— Heropup
quelle