Muss der Bayesianische Seitenzahn eine richtige Verteilung sein?

21

Ich weiß, dass Priors nicht richtig sein müssen und dass die Likelihood-Funktion auch nicht zu 1 integriert wird. Aber muss der posterior eine korrekte Verteilung sein? Was sind die Implikationen, wenn es nicht ist / ist?

distributions bayesian posterior

— ATJ
quelle

15

(Es ist etwas überraschend, die vorherigen Antworten zu lesen, die sich auf die potenzielle Unangemessenheit des Seitenzahns konzentrieren, wenn der Prior richtig ist, da, soweit ich das beurteilen kann, die Frage lautet, ob der Seitenzahn richtig sein muss oder nicht ( dh zu einem integrierbar, um ein richtiger (dh für Bayes'sche Folgerung akzeptabler) Posterior zu sein.

In Bayes - Statistik, die a posteriori Verteilung hat eine Wahrscheinlichkeitsverteilung sein, von dem man Momente wie die hinteren Mittel ableiten und Wahrscheinlichkeitsangaben wie die Abdeckung eines glaubwürdigen Bereichs, . Wenn $\mathbb{E}^\pi[h(\theta)|x]$ $\mathbb{P}(\pi(\theta|x)>\kappa|x)$ das hintere

\int f (x | θ) π (θ) d θ = + \infty, (1)

$\int f(x|\theta)\,\pi(\theta)\,\text{d}\theta = +\infty\,,\qquad (1)$

kann nicht zu einer Wahrscheinlichkeitsdichte normiert werden, und eine Bayes'sche Folgerung kann einfach nicht durchgeführt werden. Der posterior existiert in solchen Fällen einfach nicht.

π (θ | x)

$\pi(\theta|x)$

Tatsächlich muss (1) für alle im Probenraum gelten und nicht nur für das beobachtete , da sonst die Auswahl des Prior von den Daten abhängen würde . Dies bedeutet, dass Priors wie Haldanes Prior zur Wahrscheinlichkeit eines Binoms oder einer negativen Binomialvariablen nicht verwendet werden können, da der Posterior nicht für definiert ist . $x$ $x$ $\pi(p)\propto \{1/p(1-p)\}$ $p$ $X$ $x=0$

Ich kenne eine Ausnahme, wenn man von "unsachgemäßen Nachkommen" sprechen kann: Sie ist in "The Art of Data Augmentation" von David van Dyk und Xiao-Li Meng zu finden. Das falsche Maß liegt über einem sogenannten Arbeitsparameter so dass die Beobachtung durch den Rand einer erhöhten Verteilung $\alpha$ und van Dyk und Meng setzendiesem Arbeitsparameter ein falsches vorangestelltes , um die Simulation von zu beschleunigen

f (x | θ) = \int_{T (x^{aug}) = x} f (x^{aug} | θ, α) d x^{aug}

$f(x|\theta)=\int_{T(x^\text{aug})=x} f(x^\text{aug}|\theta,\alpha)\,\text{d}x^\text{aug}$

p (α)

$p(\alpha)$

α

$\alpha$

π (θ | x)

$\pi(\theta|x)$ (die als Wahrscheinlichkeitsdichte gut definiert bleibt) durch MCMC .

In einer anderen Perspektive, die etwas mit der Antwort von eretmochelys zu tun hat , nämlich einer Perspektive der Bayes'schen Entscheidungstheorie , könnte eine Einstellung, in der (1) auftritt, noch akzeptabel sein, wenn sie zu optimalen Entscheidungen führt. Wenn nämlich eine Verlustfunktion ist, die die Auswirkung der Verwendung der Entscheidung bewertet , ist eine Bayes'sche optimale Entscheidung unter dem vorherigen durch $L(\delta,\theta)\ge 0$ $\delta$ $\pi$ und alles, was zählt, ist, dass dieses Integral nicht überall (in ) unendlich ist. Ob (1) gilt oder nicht, ist für die Herleitung von , obwohl Eigenschaften wie Zulässigkeit nur dann garantiert sind, wenn (1) gilt.

δ^{⋆} (x) = \arg min_{δ} \int L (δ, θ) f (x | θ) π (θ) d θ

$\delta^\star(x)=\arg\min_\delta \int L(\delta,\theta) f(x|\theta)\,\pi(\theta)\,\text{d}\theta$

δ

$\delta$

δ^{⋆} (x)

$\delta^\star(x)$

— Xi'an
quelle

19

Die hintere Verteilung muss nicht richtig sein, auch wenn der Prior richtig ist. Angenommen, hat ein Gamma vor Form 0.25 (was richtig ist) und wir modellieren unser Datum wie es aus einer Gaußschen Verteilung mit dem Mittelwert Null und der Varianz . Angenommen, es wird beobachtet, dass Null ist. Dann ist die Wahrscheinlichkeit proportional zu , was die posteriore Verteilung für ungenau macht, da sie proportional zu ist $v$ $x$ $v$ $x$ $p(x|v)$ $v^{-0.5}$ $v$ $v^{-1.25} e^{-v}$ . Dieses Problem entsteht aufgrund der verrückten Natur kontinuierlicher Variablen.

— Tom Minka
quelle

Cooles Beispiel, Tom!

— Zen

+1, aber können Sie die Antwort auf den letzten Satz des OP erweitern? Ist dieser verrückte hintere Teil von Bedeutung (können Sie die Dinge tun, die Sie normalerweise mit einem hinteren Teil tun würden), oder ist er analog dazu, aus einigen Berechnungen eine NaN oder eine Inf zu erhalten? Ist es ein Zeichen, dass etwas mit Ihrem Modell nicht stimmt?

— Wayne

5

Es ist nichts falsch mit dem Modell. Dieser hintere Teil ist in dem Sinne bedeutsam, dass Sie, wenn Sie eine andere Beobachtung erhalten, diese multiplizieren und möglicherweise zu einem richtigen hinteren Teil zurückkehren können. Es ist also nicht wie bei einem NaN, bei dem alle weiteren Operationen NaN sind.

— Tom Minka

8

Obwohl dies wahrscheinlich zu spät ist, um eine Rolle zu spielen, glaube ich nicht, dass solche "Gegenbeispiele" Anfängern helfen: Das Problem entsteht, weil Sie eine bestimmte Version der Gaußschen Dichte bei

, wenn sie für diese Menge willkürlich definiert werden kann von Maß Null. Und daher machen Sie den Seitenzahn je nach gewählter Version richtig oder falsch.

x = 0

$x=0$

— Xi'an,

Interessant - wenn Sie das allgemeine

, dann ist der hintere Teil ein verallgemeinerter inverser Gauß mit Parametern

. @ Xi'an - es wäre gut zu sehen, wie man einen richtigen posterioren Effekt erzielen kann.

x

$x$

- 0.25, 1, x^{2}

$-0.25,1,x^2$

— Wahrscheinlichkeitslogik

11

Definieren der Menge wir

Bogus Data = {x : \int f (x ∣ θ) π (θ) d θ = \infty},

$\text{Bogus Data} = \left\{ x:\int f(x\mid \theta)\,\pi(\theta)\,d\theta = \infty \right\} \, ,$

Das letzte Integral ist gleich

wenn das Lebesgue-Maß für

positiv ist. Dies ist jedoch unmöglich, da dieses Integral Ihnen eine Wahrscheinlichkeit gibt (eine reelle Zahl zwischen

und

). Daraus folgt, dass das Lebesgue-Maß für

gleich

, und natürlich folgt daraus auch, dass

.

P r (X \in Bogus Data) = \int_{Bogus Data} \int f (x ∣ θ) π (θ) d θ d x = \int_{Bogus Data} \infty d x .

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right) = \int_\text{Bogus Data} \int f(x\mid \theta)\,\pi(\theta)\,d\theta\,dx = \int_\text{Bogus Data} \infty\,dx \, .$

\infty

$\infty$

Bogus Data

$\text{Bogus Data}$

0

$0$

1

$1$

Bogus Data

$\text{Bogus Data}$

0

$0$

P r (X \in Bogus Data) = 0

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right)=0$

In Worten: Die vorhergehende prädiktive Wahrscheinlichkeit derjenigen Stichprobenwerte, die den posterioren falsch machen, ist gleich Null.

Moral der Geschichte: Vorsicht vor Nullsätzen, sie können beißen, wie unwahrscheinlich es auch sein mag.

PS Wie von Prof. Robert in den Kommentaren ausgeführt, wird diese Argumentation zunichte gemacht, wenn der Prior nicht korrekt ist.

— Zen
quelle

4

Sie haben einmal geschrieben : "Wenn wir mit einem richtigen Prior beginnen und einen unpassenden Posterior bekommen können, dann werde ich aufhören zu schließen."

— Tom Minka

2

Ein bisschen Zunge in der Hand, es gab einen impliziten Quantifizierer: Wenn wir mit einem richtigen Prior beginnen und für jeden möglichen Stichprobenwert einen falschen Posterior erhalten können, werde ich die Folgerung beenden. ;-)

— Zen

Übrigens, bemerkenswerte Erinnerung, Tom!

— Zen

4

P r (X \in Bogus Data)

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right)$

(θ, x)

$(\theta,x)$

1

Du hast Recht. Die Begründung in der Antwort funktioniert nur mit richtigen Prioritäten. Guter Punkt. Ich werde eine Notiz hinzufügen.

— Zen

3

Jede "Verteilung" muss sich zu 1 summieren (oder integrieren). Ich kann mir einige Beispiele vorstellen, bei denen man mit nicht normalisierten Verteilungen arbeiten könnte, aber es ist mir unangenehm, jemals etwas zu nennen, das zu etwas anderem als einer "Verteilung" marginalisiert.

$x$ $d$

\begin{aligned} \hat{x} & = \arg max_{x} P_{X | D} (x | d) \\ = \arg max_{x} \frac{P_{D | X} (d | x) P_{X} (x)}{P_{D} (d)} \\ = \arg max_{x} P_{D | X} (d | x) P_{X} (x) \end{aligned}

$\begin{align} \hat{x} &= \arg \max_x P_{X|D}(x|d) \\ &= \arg \max_x \frac{P_{D|X}(d|x) P_X(x)}{P_D(d)} \\ &= \arg \max_x {P_{D|X}(d|x) P_X(x)} \end{align}$

$P_D$ $x$ $\hat{x}$ $P_{D|X}(d|x) P_X(x)$

— Eretmochelys
quelle

@Zen Würde es Ihnen etwas ausmachen, genauer zu sagen, was Ihrer Meinung nach an dieser Antwort falsch (oder grundsätzlich unvollständig) ist?

— Whuber

1

Eine Möglichkeit, die OP-Frage zu interpretieren: "Muss der Posterior eine ordnungsgemäße Verteilung sein?" ist zu fragen, ob es mathematisch möglich ist, mit einem richtigen Prior zu beginnen und mit einem falschen Posterior zu enden. Minkas Antwort gibt ein explizites Beispiel, in dem es passiert. Ich habe versucht, es mit meiner Antwort zu ergänzen und darauf hinzuweisen, dass dies nur innerhalb einer Menge von Null vor der Vorhersage der Wahrscheinlichkeit geschehen kann.

— Zen

1

@Zen Es scheint mir, dass eine eng verwandte Interpretation lautet: "Wenn der hintere Teil nicht korrekt ist, welche Informationen kann ich daraus erhalten?" Diese akzeptierte Antwort sieht so aus, als ob sie nützliche und korrekte Ratschläge in Bezug auf einen bestimmten Umstand (der klar beschrieben wird) enthält. Die Annahme sieht für mich wie ein Signal aus, das eretmochelys mit einer klugen Vermutung der Umstände nach Hause schlug.

— whuber

-2

Eine unsachgemäße posteriore Verteilung tritt nur auf, wenn Sie eine unsachgemäße vorherige Verteilung haben. Dies impliziert, dass die asymptotischen Ergebnisse nicht zutreffen. Betrachten Sie als Beispiel ein Binomial aus $n$ Erfolg und 0 Fehler, falls verwendet $Beta(0,0)$ wie die vorherige Verteilung, dann ist der hintere unpassend. In dieser Situation ist es am besten, an eine ordnungsgemäße vorherige Verteilung zu denken, um Ihre nicht ordnungsgemäße vorherige Verteilung zu ersetzen.

— omidi
quelle

3

Diese Antwort ist falsch. Siehe meine Antwort.

— Tom Minka