Intuition der Bayes'schen Normalisierungskonstante

8

Bei dem häufig erwähnten Mammographie-Screening-Problem mit einer Screening-Wahrscheinlichkeit von 80%, einem Prior von 10% und einer falsch-positiven Rate von 50% oder seinen Varianten ist es leicht zu erklären, dass die bedingte hintere Wahrscheinlichkeit, dass ein positives Screening auf Krebs hinweist vorhanden ist nur 15%. Dies lässt sich am einfachsten anhand von Zählungen mit n = 1000, echten Krebsfällen = 100, erkannten Krebserkrankungen = 80 und falsch positiven Ergebnissen = 450 zeigen. Dann ist die Wahrscheinlichkeit, dass ein positives Screening auf einen vorhandenen Krebs hinweist, wahr positiv / (wahr positiv +) falsch positiv) oder 80 / (100 + 450) = 0,145 oder 15%.

Die Intuition ist, dass die wahren Positiven von der Summe der wahren und falschen Positiven abhängig sind, da die Summe der wahren und falschen Positiven eine Teilmenge aller Ergebnisse darstellt. Dies liegt daran, dass die falschen Negative und wahren Negative von der Berechnung ausgeschlossen werden und die bedingte Menge daher eine Teilmenge ist.

Wenn wir das Problem auf den kontinuierlichen Fall mit einer Binomialwahrscheinlichkeit und einem Beta-Prior verschieben, wird die Normalisierungskonstante zu einem Integral, wie für den wahren positiven Term (p = Anteil).

\int_{0}^{1} (\begin{matrix} n \\ x \end{matrix}) p_{}^{x} {(1 - - p)}^{n - - x} \frac{Γ (ein + b)}{Γ (ein) Γ (b)} p_{}^{ein - - 1} {(1 - - p_{})}^{b - - 1} d p

$\int_0^1 {\left( {\begin{array}{*{20}{c}}n\\x\end{array}} \right)p_{}^x{{(1 - p)}^{n - x}}\frac{{\Gamma (a + b)}}{{\Gamma (a)\Gamma (b)}}p_{}^{a - 1}{{(1 - {p_{}})}^{b - 1}}} dp % MathType!MTEF!2!1!+- % feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn % hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr % 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq-Jc9 % vqaqpepm0xbba9pwe9Q8fs0-yqaqpepae9pg0FirpepeKkFr0xfr-x % fr-xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 % qadaWdXaqaamaabmaapaqaauaabeqaceaaaeaapeGaamOBaaWdaeaa % peGaamiEaaaaaiaawIcacaGLPaaacaWGWbWaa0baaSqaaaqaaiaadI % haaaGccaGGOaGaaGymaiabgkHiTiaadchacaGGPaWaaWbaaSqabeaa % caWGUbGaeyOeI0IaamiEaaaak8aadaWcaaqaaiabfo5ahjaacIcaca % WGHbGaey4kaSIaamOyaiaacMcaaeaacqqHtoWrcaGGOaGaamyyaiaa % cMcacqqHtoWrcaGGOaGaamOyaiaacMcaaaWdbiaadchadaqhaaWcba % aabaGaamyyaiabgkHiTiaaigdaaaGccaGGOaGaaGymaiabgkHiTiaa % dchadaWgaaWcbaaabeaakiaacMcadaahaaWcbeqaaiaadkgacqGHsi % slcaaIXaaaaaqaaiaaicdaaeaacaaIXaaaniabgUIiYdGccaWGKbGa % amiCaaaa!6018!$

und ein ähnlicher Begriff für die falsch positiven.

Was jedoch nicht klar ist, ist, wie man die Idee einer Teilmenge im kontinuierlichen Fall neu formuliert, und ich kann niemanden finden, der dies tut. Vielmehr findet man eine Sprache, die entweder 1) dieses Integral die Konstante angibt, um die Berechnung durchzuführen, die für die Definition einer Wahrscheinlichkeitsverteilung im Intervall [0, 1] erforderlich ist, oder 2) dass die Proportionalität aufgerufen wird und der Wert des Integrals nicht benötigt wird Finden Sie den posterioren, insbesondere mit MCMC, oder 3) das Integral ist die Wahrscheinlichkeit des Beweises. Diese letzte Erklärung scheint der Idee einer Teilmenge näher zu sein, ist jedoch nicht klar und explizit miteinander verbunden.

Ich schreibe eine intuitive Einführung in den Satz von Bayes und möchte die intuitive Idee einer Teilmenge für die bedingte Wahrscheinlichkeit fortsetzen, die den posterioren definiert. Ich brauche also eine Sprache, um zu erklären, wie dieses Integral nur die kontinuierliche Anpassung der Teilmenge im Fall diskreter Zahlen ist.

Irgendwelche Vorschläge?

normalization bayes marginal

— Haynes
quelle

Überprüfen Sie stats.stackexchange.com/questions/129666/…

— Tim

4

Ich musste dies für einen Kurs tun, den ich vorbereite, also habe ich diese Demonstrationswebsite erstellt: Eine Demonstration des Bayes-Theorems als "Auswählen einer Teilmenge" im Binomialfall (stellen Sie sicher, dass die Symbolleisten unten rechts ausgeblendet sind). Grundsätzlich gilt, wenn Sie die gemeinsame Verteilung zeigen - was gerecht ist $p(y\mid\theta)p(\theta)$ - Sie können die "Teilmengen" der gemeinsamen Verteilung sehen, die Sie auswählen müssen $\theta$ Werte, die entsprechen $Y=y$ (was auch immer du beobachtet hast).

Den Quellcode für diese Seite finden Sie hier: Rmarkdown-Quelle für Seite .

(Ich benutzte $\theta$ für die Binomialwahrscheinlichkeit anstelle von $p$ da $p(p)$ sieht verwirrend aus ...)

— richarddmorey
quelle

2

Neben den von Ihnen erwähnten Interpretationen können Sie sich die Normalisierungskonstante als den Wert der vorherigen Vorhersageverteilung am beobachteten x vorstellen. Wenn die vorherige Vorhersage diskret ist, ist dies eine Wahrscheinlichkeitsmasse, und wenn die vorherige Vorhersage kontinuierlich ist, ist es eine Wahrscheinlichkeitsdichte.

Die vorherige Vorhersage ist im kontinuierlichen Fall

p (x) = \int_{Θ} p (θ) p (x | θ)

$p(x) = \int_\Theta p(\theta)p(x|\theta)$

Dies ist eine Verteilung, die den Ergebnissen im Probenraum eine Wahrscheinlichkeitsmasse / -dichte zuweist. Wenn dann x beobachtet wird, ist es auf das beobachtete x festgelegt und passt in den Nenner des Bayes'schen Theorems.

Es ist jedoch zu beachten, dass bei kontinuierlichen Verteilungen keine mathematische Einschränkung für den Dichtewert besteht, der einer Menge mit dem Maß Null (dh der Wahrscheinlichkeit Null) zugewiesen ist, und da jeder bestimmte Punkt auf einer kontinuierlichen Verteilung tatsächlich das Maß Null hat, ist technisch der Wert der Dichte auf der vorherigen Vorhersage bei genau x kann beliebig eingestellt werden. Abgesehen davon denke ich, dass diese Art der Visualisierung der Normalisierungskonstante ziemlich intuitiv ist.

Sie können mehr lesen hier . (Lassen Sie mich wissen , wenn Sie keinen Zugang haben) Dieses zu, das ist ein bisschen mehr modern ist.

— Alexander Etz
quelle

1

Richards 3-D-Grafik war sehr hilfreich. Was ich jedoch brauche, kann ich als Grafik in ein Manuskript einfügen. Nach einiger Suche fand ich dieses Bild von Westfall und Henning, Understanding Advanced Statistical Methods , Chapman & Hall / CRC, 2013.

Das Umbenennen der Achsen als Binomialwahrscheinlichkeit p links und die Anzahl der Erfolge y rechts zeigt dann eine Binomialverteilung, und die Fläche der Gelenkverteilung ist dann die zu integrierende Randverteilung.

Durch diese gemeinsame Verteilung wurde mir außerdem klar, dass unser Wortschatz dafür fehlt. Wir verwenden den Begriff „marginal“ für die relevante Teilmenge für die Normalisierungskonstante, da dieses Vokabular aus einer Zwei-Wege-Kontingenztabelle mit diskreten Daten stammt, in die die Summe der Wahrscheinlichkeiten am Rand der Tabelle geschrieben ist. Wir verwenden weiterhin das gleiche Vokabular im kontinuierlichen Fall der gemeinsamen Verteilung, aber es ist nicht beschreibend.

Die Zahl von Westfall und Henning macht jedoch deutlich, dass wir für die Normalisierungskonstante über einen „Schnitt“ der gemeinsamen Verteilung für den Wert von y die Anzahl der Erfolge im Binomialfall integrieren. "Slice" ist viel klarer als marginal und diese Zahl macht sofort klar, welche Teilmenge für die Integration relevant ist.

— Haynes
quelle