Ich versuche, HMC mit einer nicht diagonalen Massenmatrix zu implementieren, aber ich werde von einigen Begriffen gestolpert.
Laut BDA3 und Neals Bericht ist der kinetische Energiebegriff (der meiner Meinung nach aus Bequemlichkeitsgründen immer verwendet wird)
Dies ist auch als multivariate Normalen mit dem Mittelwert Null und der Kovarianzmatrix erkennbar . BDA3 (S. 301) sagt
Um es einfach zu halten, verwenden wir üblicherweise eine diagonale Massenmatrix M. Wenn ja, sind die Komponenten von φ unabhängig, wobei φj ∼ N (0, Mjj) für jede Dimension j = 1 ,. . . d. Es kann für M nützlich sein, grob mit der inversen Kovarianzmatrix der posterioren Verteilung (var (θ | y)) ^ - 1 zu skalieren.
(Ich lese N (0, M)) als multivariate Normalen mit Mittelwert Null und Kovarianz M.)
Der Teil, der mich auslöst, besagt, dass "es für nützlich sein kann , grob mit der inversen Kovarianzmatrix der posterioren Verteilung zu skalieren ...".
Und dann auch noch kurz vor , dass die Dynamik Probe, die die Leapfrog Schritte beginnt ( ) mit aus einer multivariaten Normal gezogen Kovarianz Matrix . M.
Also was ist es? Schätze ich die Kovarianz- oder Präzisionsmatrix des Seitenzahns, um ein gutes M für HMC zu konstruieren? Obwohl die Kovarianzmatrix der kinetischen Energie ist, ergibt die Verwendung eines , das eine Schätzung der Präzisionsmatrix des Seitenzahns darstellt, einen effizienteren Algorithmus?M.
Sekundäre Frage: Was ist die Intuition, die mich hierher führen könnte?
Möchten Sie eine Präzisionsmatrix verwenden, damit der Impuls orthogonal zum Potential / Posterior drückt, um das Mischen zu verbessern?
ODER möchten Sie, dass der Impuls in Richtung des Massenteils mit hoher Wahrscheinlichkeit des Seitenzahns geht (weil Sie dort die meisten Proben ziehen möchten).
ps Der Grund, warum ich die Identitätsmatrix für ist, dass ich für mein Problem in der Lage bin, vorher eine anständige Schätzung der Kovarianzmatrix meines ziemlich hochdimensionalen (~ 1000) posterioren zu erhalten.