Ich versuche, das Innenleben des Hamiltonian Monte Carlo (HMC) zu verstehen, kann aber den Teil nicht vollständig verstehen, wenn wir die deterministische Zeitintegration durch einen Vorschlag von Metropolis-Hasting ersetzen. Ich lese das großartige Einführungspapier A Conceptual Introduction to Hamiltonian Monte Carlo von Michael Betancourt, daher werde ich der darin verwendeten Notation folgen.
Hintergrund
Das allgemeine Ziel der Markov-Kette Monte Carlo (MCMC) besteht darin, die Verteilung einer Zielvariablen zu approximieren .q
Die Idee von HMC ist es, eine Hilfsvariable "Impuls" in Verbindung mit der ursprünglichen Variablen einzuführen , die als "Position" modelliert wird. Das Positions-Impuls-Paar bildet einen erweiterten Phasenraum und kann durch die Hamilton-Dynamik beschrieben werden. Die gemeinsame Verteilung kann als mikrokanonische Zerlegung geschrieben werden:q
,
wobei die Parameter auf einem gegebenen Energieniveau , das auch als typischer Satz bekannt ist . Zur Veranschaulichung siehe Abb. 21 und Abb. 22 des Papiers. ( q , p ) E.
Das ursprüngliche HMC-Verfahren besteht aus den folgenden zwei abwechselnden Schritten:
Ein stochastischer Schritt, der einen zufälligen Übergang zwischen den Energieniveaus und ausführt
Ein deterministischer Schritt, der eine Zeitintegration (normalerweise implementiert über eine numerische Sprungintegration) entlang eines bestimmten Energieniveaus durchführt.
In der Arbeit wird argumentiert, dass leapfrog (oder symplektischer Integrator) kleine Fehler aufweist, die zu numerischen Verzerrungen führen. Anstatt es als deterministischen Schritt zu behandeln, sollten wir es in einen Metropolis-Hasting (MH) -Vorschlag umwandeln, um diesen Schritt stochastisch zu machen, und das resultierende Verfahren liefert genaue Stichproben aus der Verteilung.
Der MH Vorschlag wird ausführen Schritte leapfrog Operationen und dann drehen die Dynamik. Der Vorschlag wird dann mit folgender Akzeptanzwahrscheinlichkeit angenommen:
Fragen
Meine Fragen sind:
1) Warum hebt diese Modifikation der Umwandlung der deterministischen Zeitintegration in einen MH-Vorschlag die numerische Verzerrung auf, sodass die generierten Stichproben genau der Zielverteilung folgen?
2) Aus physikalischer Sicht bleibt die Energie auf einem bestimmten Energieniveau erhalten. Deshalb können wir Hamiltons Gleichungen verwenden:
.
In diesem Sinne sollte die Energie überall auf der typischen Menge konstant sein , daher sollte gleich . Warum gibt es einen Energieunterschied, der es uns ermöglicht, die Akzeptanzwahrscheinlichkeit zu konstruieren?H ( q L , - p L )