Hamiltonian Monte Carlo (HMC): Was ist die Intuition und Rechtfertigung hinter einer Gaußschen verteilten Impulsvariablen?

Ich lese gerade ein großartiges HMC-Einführungspapier von Prof. Michael Betancourt, aber ich verstehe nicht, wie wir die Verteilung des Impulses wählen sollen.

Zusammenfassung

Die Grundidee von HMC besteht darin, eine Impulsvariable in Verbindung mit der Zielvariablen einzuführen . Sie bilden gemeinsam einen Phasenraum . $p$ $q$

Die Gesamtenergie eines konservativen Systems ist eine Konstante und das System sollte den Hamilton-Gleichungen folgen. Daher können die Trajektorien im Phasenraum in Energieniveaus zerlegt werden , jedes Niveau entspricht einem gegebenen Wert der Energie $E$ und kann als eine Menge von Punkten beschrieben werden, die erfüllt:

$H^{-1}(E) = \{(q, p) | H(q, p) = E\}$ .

Wir möchten die gemeinsame Verteilung schätzen $\pi(q, p)$ , damit wir durch Integration von $p$ die gewünschte Zielverteilung $\pi(q)$ . Darüber hinaus kann $\pi(q, p)$ äquivalent als $\pi(\theta_E \hspace{1.5pt} | \hspace{1.5pt} E) \hspace{1.5pt} \pi(E)$ , wobei $E$ entspricht Ein bestimmter Wert der Energie und $\theta_E$ ist die Position auf diesem Energieniveau.

π (q, p) = {\begin{cases} π (p | q) π (q) \\ π (θ_{E} | E) π (E), microcanonical decomposition \end{cases}

$\begin{equation} \pi(q, p)= \begin{cases} \pi(p \hspace{1.5pt} | \hspace{1.5pt} q) \hspace{1.5pt} \pi(q) \\ \pi(\theta_E \hspace{1.5pt} | \hspace{1.5pt} E) \hspace{1.5pt} \pi(E), \hspace{5pt} \text{microcanonical decomposition} \end{cases} \end{equation}$

Für einen gegebenen Wert von ist relativ einfacher zu wissen, da wir die Hamilton-Gleichungen integrieren können, um die Datenpunkte auf der Trajektorie zu erhalten . Jedoch ist der schwierige Teil, der davon abhängt , wie wir den Impuls geben, die folglich die Gesamtenergie bestimmt . $E$ $\pi(\theta_E \hspace{1.5pt} | \hspace{1.5pt} E)$ $\pi(E)$ $E$

Fragen

Es scheint mir, dass das , wonach wir , aber was wir praktisch schätzen können, ist , basierend auf der Annahme, dass kann ungefähr ähnlich zu , wie in Fig. 23 des Papiers dargestellt. Was wir jedoch tatsächlich abtasten, scheint . $\pi(E)$ $\pi(E \hspace{1pt} | \hspace{1pt} q)$ $\pi(E \hspace{2pt} | \hspace{1pt} q)$ $\pi(E)$ $\pi(p \hspace{1pt} | \hspace{1pt} q)$

Q1 : Ist das so, weil wir, sobald wir , leicht berechnen und daher ? $\pi(p \hspace{1pt} | \hspace{1pt} q)$ $E$ $\pi(E \hspace{2pt} | \hspace{1pt} q)$

Um anzunehmen, dass gilt, verwenden wir einen verteilten Gaußschen Impuls. In dem Papier werden zwei Möglichkeiten erwähnt: $\pi(E) \sim \pi(E | q)$

π (p | q) = {\begin{cases} N (p | 0, M) Euclidean-Gaussian kinetic energy \\ N (p | 0, Σ (q)) Reimannian-Gaussian kinetic energy, \end{cases}

$\begin{equation} \pi(p|q)= \begin{cases} \mathcal{N}(p \hspace{1pt}| \hspace{1pt} 0, M) \hspace{5pt} \text{Euclidean-Gaussian kinetic energy} \\ \mathcal{N}(p \hspace{1pt}| \hspace{1pt} 0, \Sigma(q)) \hspace{5pt} \text{Reimannian-Gaussian kinetic energy}, \end{cases} \end{equation}$

Dabei ist eine Konstante, die als euklidische Metriken bezeichnet wird, auch bekannt als Massenmatrix . $M$ $D \times D$

Im Fall der ersten Wahl (Euklidisch-Gauß) ist die Massenmatrix tatsächlich unabhängig von , so dass die Wahrscheinlichkeit, dass wir eine Stichprobe machen, tatsächlich . Die Wahl des Gauß-verteilten Impulses mit der Kovarianz impliziert, dass die Zielvariable mit der Kovarianzmatrix Gauß-verteilt ist , da und umgekehrt transformiert werden müssen, um das Volumen im Phasenraum konstant zu halten . $M$ $q$ $\pi(p)$ $p$ $M$ $q$ $M^{-1}$ $p$ $q$

F2 : Meine Frage ist, wie können wir erwarten, dass einer Gaußschen Verteilung folgt? In der Praxis könnte eine komplizierte Verteilung sein. $q$ $\pi(q)$

mcmc monte-carlo hmc

— cwl
quelle

Es ist nicht so sehr, dass wir nach , es ist nur so, dass wenn und sind, unsere Erforschung durch unsere Unfähigkeit begrenzt wird, alle relevanten Energien zu erforschen. Folglich sind in der Praxis empirische Schätzungen von und nützlich, um mögliche Einschränkungen unserer Exploration zu identifizieren, die die Motivation für das vergleichende Histogramm und die E-BFMI-Diagnose darstellen. $\pi(E)$ $\pi(E)$ $\pi(E|q)$ $\pi(E)$ $\pi(E|q)$

Was wissen wir über die beiden Distributionen? Wenn wir die Dimensionalität unserer Zielverteilung erhöhen , sieht immer mehr nach Gauß aus. Wenn unsere Integrationszeiten lang genug sind, werden sich unsere Erkundungen der Pegelsätze ausgleichen, und wenn Gauß ist, wird auch tendenziell immer mehr Gauß sein. $\pi(E)$ $\pi(p | q)$ $\pi(E|q)$

Daher ist eine Gauß-Euklidische kinetische Energie ein guter Ausgangspunkt, aber keineswegs immer optimal ! Ich verbringe viel Zeit damit, Modelle zu finden, bei denen Stan mich wegen schlechter E-BFMI-Diagnose anschreit. Eine Gaussian-Riemannsche kinetische Energie kann eine deutliche Verbesserung in vielen Fällen als positionsabhängige log Determinante sein in kann machen deutlich mehr Gaussian, aber es gibt noch viel mehr Forschung zu sein getan, um das Problem vollständig zu verstehen. $\pi(p | q)$ $\pi(E)$

— Michael Betancourt
quelle

Ich habe versucht, eine Antwort zu schreiben, aber wenn THE Michael Betancourt auf Cross Validated ist, dann trete ich gerne zurück :-) Nur ein Hinweis: "Log Determent" ist höchstwahrscheinlich ein Tippfehler: Ich wette, Sie meinten "Log Determinant". .

— DeltaIV

Es ist geschmeichelt, die Antwort von @Michael Betancourt zu haben :-) Nur neugierig, als Sie sagten: "Wenn wir die Dimensionalität unserer Zielverteilung erhöhen , sieht immer mehr nach Gauß aus", gibt es einen theoretischen Beweis oder ist es eine empirische Beobachtung?

π (E)

$\pi(E)$

— cwl

@cwl - es ist ein asymptotisches Standardargument. Wenn die Zielverteilung mit zunehmenden Daten oder Parametern zu einer unabhängig verteilten Verteilung konvergiert, konvergiert zu einem das durch einen Gaußschen Wert über einigen Dimensionen gut angenähert wird. Andererseits tendieren wir dazu, in der Praxis nach Hamiltonian Monte Carlo zu greifen, wenn das Ziel komplex ist, so dass die Asymptotik möglicherweise nicht besonders relevant ist. Daher die Absicherung.

p i (E)

$pi(E)$

c h i^{2}

$chi^{2}$

— Michael Betancourt

Habe es @Michael Betancourt, vielen Dank für die Erklärung!

— cwl