Warum wird MCMC benötigt, wenn ein Parameter mithilfe von MAP geschätzt wird?

Angesichts der Formel für die MAP-Schätzung eines Parameters Warum ist ein MCMC-Ansatz (oder ein ähnlicher Ansatz) erforderlich? Könnte ich nicht einfach die Ableitung nehmen, auf Null setzen und dann nach dem Parameter auflösen?

bayesian estimation mcmc

— Dänu
quelle

Gute Frage!

Antworten:

Wenn Sie wissen, aus welcher Familie Ihr posterior stammt, und wenn es analytisch machbar ist, die Ableitung dieser Verteilung zu finden, ist das richtig.

Wenn Sie jedoch MCMC verwenden, werden Sie wahrscheinlich nicht in einer solchen Situation sein. MCMC wurde für Situationen entwickelt, in denen Sie keine klare analytische Vorstellung davon haben, wie Ihr posterior aussieht.

— Christoph Hanck
quelle

Ich halte dies für etwas irreführend: MCMC wird normalerweise nicht zum Auffinden des MAP-Schätzers verwendet (außerhalb von Sonderfällen wie einem MCEM-Algorithmus).

— Cliff AB

Ich bin grundsätzlich nicht anderer Meinung als Sie. MCMC kann und wird jedoch verwendet, um die posteriore Verteilung zu simulieren . Und wenn Sie das getan haben, können Sie sicher den Modus dieser Distribution finden, auch bekannt als MAP. Ich glaube, das war das, was das OP im Sinn hatte, daher bin ich mir nicht ganz sicher, warum meine Antwort irreführend wäre.

— Christoph Hanck

Ja, ist MCMC jedoch die Methode der Wahl beim Umgang mit MAP, wenn es keine analytische Möglichkeit gibt, den Parameter zu optimieren?

— Dänu

Ich habe noch nie davon gehört, einfache MCMC zu verwenden, um den Modus der posterioren Verteilung zu finden (technisch könnte dies durchgeführt werden, aber dies ist äußerst ineffizient). Da wir normalerweise eine Funktion bewerten können, die proportional zur posterioren Verteilung ist, entspricht die Maximierung dieser Funktion der Maximierung der posterioren Verteilung. Out-of-the-Box-Optimierer funktionieren hier genauso gut wie bei jedem Problem mit häufiger Wahrscheinlichkeit (das heißt, manchmal müssen Sie sie spezialisieren).

— Cliff AB

@ Dänu Du möchtest wahrscheinlich nicht MCMC (um pedantisch zu sein, eine Markov-Kette) verwenden, um Maxima zu finden. Ein Optimierungsalgorithmus sollte besser funktionieren.

— Jtobin

Die meisten Posterioren sind nur schwer analytisch zu optimieren (dh indem ein Gradient auf Null gesetzt wird), und Sie müssen auf einen numerischen Optimierungsalgorithmus zurückgreifen, um MAP durchzuführen.

Nebenbei: MCMC hat nichts mit MAP zu tun.

MAP - für Maximum a posteriori - bezieht sich auf das Finden eines lokalen Maximums von etwas proportional zu einer posterioren Dichte und das Verwenden der entsprechenden Parameterwerte als Schätzungen. Es ist definiert als

{\hat{θ}}_{M. EIN P.} = {Argmax}_{θ} p (θ | D.)

$\hat{\theta}_{MAP} = \text{argmax}_{\theta} \, p(\theta \, | \, D)$

MCMC wird normalerweise verwendet, um Erwartungen über etwas zu approximieren , das proportional zu einer Wahrscheinlichkeitsdichte ist. Im Falle eines Seitenzahns ist das so

{\hat{θ}}_{M. C. M. C.} = n^{- - 1} \sum_{ich = 1}^{n} θ_{ich}^{0} \approx \int_{Θ} θ p (θ | D.) d θ

$\hat{\theta}_{MCMC} = n^{-1} \sum_{i=1}^{n} \theta^{0}_{i} \approx \int_{\Theta}\theta \, p(\theta \, | \, D)d\theta$

$\{\theta^{0}_{i}\}^{n}_{i=1}$ $\hat{\theta}_{MAP} \neq \hat{\theta}_{MCMC}$

Der springende Punkt ist, dass MAP eine Optimierung beinhaltet , während MCMC auf Stichproben basiert .

— jtobin
quelle

Sie geben an, dass sich Posterioren als schwierig analytisch zu optimieren erweisen, was bei MAP der Fall ist. Ist MAP also nur möglich, wenn der Posterior analytisch optimiert werden kann und wenn dies nicht der Fall ist, muss man (zum Beispiel) auf einen MCMC-Ansatz zurückgreifen?

— Dänu

Nein, anstatt mit der analytischen Lösung zu kommen, kann man einen iterativen Algorithmus verwenden, um die Lösung zu finden (dh wenn der Log Posterior konkav ist, können Sie beispielsweise die Newtonsche Methode verwenden).

— Cliff AB

MAP bezieht sich auf das Finden von Parameterwerten, die (lokal) einen Posterior maximieren. Es spielt keine Rolle, wie man diese Parameterwerte erhält: analytische Lösung nach Maxima, Verwendung einer numerischen Routine, automatische Differenzierung usw.

— jtobin