Gibt es einen Monte-Carlo / MCMC-Sampler, der isolierte lokale Maxima der posterioren Verteilung verarbeiten kann?


10

Ich verwende derzeit einen Bayes'schen Ansatz, um Parameter für ein Modell zu schätzen, das aus mehreren ODEs besteht. Da ich 15 Parameter zu schätzen habe, ist mein Abtastraum 15-dimensional und meine Suche nach posteriorer Verteilung scheint viele lokale Maxima zu haben, die durch große Regionen mit sehr geringer Wahrscheinlichkeit sehr isoliert sind.

Dies führt zu Mischungsproblemen meiner Monte-Carlo-Ketten, da es sehr unwahrscheinlich ist, dass eine Kette aus einem lokalen Maximum "springt" und versehentlich eines der anderen Maxima trifft.

In diesem Bereich scheint es eine Menge Forschung zu geben, da es leicht ist, Papiere zu finden, die sich mit diesem Problem befassen (siehe unten), aber es ist schwierig, eine tatsächliche Implementierung zu finden. Ich habe nur Pakete gefunden, die sich auf die Molekulardynamik beziehen, aber keine Bayes'sche Folgerung. Gibt es Implementierungen von (MC) MC-Samplern, die in der Lage sind, isolierte lokale Maxima zu verarbeiten?

Ich bin gezwungen, mit Matlab zu arbeiten, da dies mein ODE-Modell ist. Vorschläge zu Matlab sind daher sehr willkommen ;-). Wenn es jedoch eine "Killer-App" in einer anderen Sprache gibt, kann ich meinen PI vielleicht davon überzeugen, zu wechseln ;-).

Ich arbeite derzeit mit einem Delayed-Rejection / Adaptive Monte-Carlo-Sampler von Haario, Laine et al. und das ist auch der einzige Sampler, den ich bisher finden konnte, der ausgefeilter ist als der Standard-Metropolis-Hastings-Algorithmus


Bemerkenswerte Ansätze scheinen zu sein:

BEARBEITEN Aktualisiert am 07.03.2017 mit dem, was ich inzwischen gelernt habe

Mehrere ähnliche Ketten mit unterschiedlichen Startpunkten

Inter-Chain-Anpassung. Verwenden Sie die empirische Kovarianzmatrix der gepoolten Stichproben, die von mehreren unabhängigen Ketten generiert wurden, um die Kovarianzmatrizen der Vorschlagsverteilungen der Kette zu aktualisieren. (1)

Mehrere Ketten mit unterschiedlichem Anlassen

1/TT>1p(θD)θD Die temperierte hintere Wahrscheinlichkeit wird berechnet

p(θD)1/T(p(Dθ)p(θ))1/T

TTp(θD)1/TT1p(θD)

Proben aus der ursprünglichen, ungehärteten posterioren Verteilung, gegeben Proben aus einer temperierten Version dieser Verteilung, können durch verschiedene Methoden erhalten werden:

  • TT=1

  • Small-World MCMC. Sampler wechselt zwischen zwei Vorschlägen. Am häufigsten wird eine Angebotsverteilung mit geringer Varianz verwendet, selten wird ein Angebot mit großer Varianz verwendet. Die Wahl zwischen diesen beiden Vorschlägen ist stochastisch. Vorschläge mit großer Varianz können auch aus einer anderen Kette gezogen werden, die nur sehr große Sprünge macht und so viel wie möglich des Probenraums grob abtastet. (2,7)

Hamiltonian Monte Carlo (HMC)

Ich weiß nicht viel darüber, aber der No-U-Turn-Sampler (NUTS) von JAGS scheint ihn zu verwenden. Siehe Ref. (8). Alex Rogozhnikov hat ein visuelles Tutorial zu diesem Thema erstellt.


Verweise:

(1) Craiu et al., 2009: Lernen Sie von Ihrem Nachbarn: Parallelkettige und regionale adaptive MCMC. J Am Stat Assoc 104: 488, S. 1454–1466. http://www.jstor.org/stable/40592353

(2) Guam et al., 2012: Small World MCMC mit Temperierung: Ergocity und spektrale Lücke. https://arxiv.org/abs/1211.4675 ( nur unter arXiv )

(3): Brooks et al. (2011). Handbuch der Markov-Kette Monte Carlo. CRC drücken.

(4): Altekar et al. (2004): Parallel Metropolis gekoppelte Markov-Kette Monte Carlo für Bayes'sche phylogenetische Inferenz. Bioinformatics 20 (3) 2004, S. 407–415, http://dx.doi.org/10.1093/bioinformatics/btg427

(5): Geyer CJ (1991) Markov-Kette Monte Carlo maximale Wahrscheinlichkeit. In: Keramidas (Hrsg.), Informatik und Statistik: Vorträge des 23. Symposiums über die Schnittstelle . Interface Foundation, Fairfax Station, S. 156–163.

(6): Gilks ​​WR und Roberts GO (1996). Strategien zur Verbesserung der MCMC. In: Gilks ​​WR, Richardson S und Spiegelhalter (Hrsg.) Markov Kette Monte Carlo in der Praxis . Chapman & Hall, p. 89–114.

(7): Guan Y et al. Markov-Kette Monte Carlo in kleinen Welten. Statistics and Computing (2006) 16 (2), S. 193–202. http://dx.doi.org/10.1007/s11222-006-6966-6

(8): Hoffmann M und Gelman A (2014): Der No-U-Turn-Sampler: Adaptives Einstellen von Pfadlängen im Hamilton-Monte-Carlo. Journal of Machine Learning Research , 15, S. 1351-1381. https://arxiv.org/abs/1111.4246

Antworten:


1

Keine der oben genannten Strategien eignet sich besonders für mehrere Optima.

Eine bessere Wahl sind Differential Evolution MCMC und abgeleitete MCMCs wie DREAM. Diese Algorithmen arbeiten mit mehreren MCMC-Ketten, die gemischt werden, um Vorschläge zu generieren. Wenn Sie mindestens eine Kette in jedem Optima haben, können diese effizient zwischen den Optima springen. Eine Implementierung in R finden Sie hier https://cran.r-project.org/web/packages/BayesianTools/index.html

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.