Markov-Kette Monte Carlo (MCMC) für Maximum Likelihood Estimation (MLE)


10

Ich lese ein Konferenzpapier von Geyer aus dem Jahr 1991, das unten verlinkt ist. Darin scheint er sich einer Methode zu entziehen, die MCMC für die MLE-Parameterschätzung verwenden kann

Dies reizt mich, da ich BFGS-Algorithmen, GAs und alle Arten dieser schrecklichen handgewellten Lucky-Dip- Methoden codiert habe , um globale Minima zu finden, die erforderlich sind, um die Schätzung von Parametern aus MLEs zu extrahieren.

Der Grund, warum es mich reizt, ist, dass wir Parameter erhalten können, ohne eine MLE zu minimieren , wenn wir die Konvergenz des MCMC zu einem festen Punkt garantieren können (z. B. würde ein ausreichendes Kriterium die detaillierte Ausgewogenheit erfüllen ).

Die Schlussfolgerung ist daher, dass dies eine generische Methode darstellt, um die oben und in der Veröffentlichung auferlegten globalen Minima und Modulo-Einschränkungen zu erhalten. Es gibt eine Reihe von Algorithmen für MCMC, z. B. HMC, die für hochdimensionale MCMC-Probleme gut abgebildet sind, und ich würde annehmen, dass sie herkömmliche Gradientenabstiegsmethoden übertreffen würden.

Frage

  1. Stimmt es, dass dieses Papier eine theoretische Grundlage für die Verwendung von MCMC bietet, um Parameterschätzungen von MLEs zu erhalten?

  2. Kann man unter bestimmten Umständen einen MCMC-Algorithmus verwenden, um Parameter aus dem MLE zu extrahieren, wobei die Anforderungen für Methoden wie genetische Algorithmen und BFGS usw. umgangen werden?

Papier

Geyer, CJ (1991). Markov Kette Monte Carlo maximale Wahrscheinlichkeit . Informatik und Statistik: Proc. 23. Symp. Schnittstelle, 156–163.

Abstrakt

Die Markov-Kette Monte Carlo (z. B. der Metropolis-Algorithmus und der Gibbs-Sampler) ist ein allgemeines Werkzeug zur Simulation komplexer stochastischer Prozesse, die für viele Arten statistischer Inferenz nützlich sind. Die Grundlagen der Markov-Kette Monte Carlo werden besprochen, einschließlich der Auswahl von Algorithmen und der Varianzschätzung, und einige neue Methoden werden vorgestellt. Die Verwendung der Markov-Kette Monte Carlo für die Schätzung der maximalen Wahrscheinlichkeit wird erklärt und ihre Leistung mit der Schätzung der maximalen Pseudowahrscheinlichkeit verglichen.

Hinweis: Die Abschnitte 1-6 sind langweilig und Sie kennen sie wahrscheinlich bereits, wenn Sie so weit gekommen sind. In Abschnitt 7 kommt er zu dem interessanten, aber von dem, was er als "Monte Carlo Maximum Likelihood" bezeichnet.

Mehr Ressourcen

Steuerung + f für "Geyer"


1
Als Referenz verwendet das RPaket glmm hier Monte Carlo, um die Wahrscheinlichkeit in GLMMs zu approximieren. Das Paket wurde von Geyers Schüler geschrieben. Zusätzlich schätzt das 'R'-Paket' mcemGLM ' hier MLE für GLMMs unter Verwendung von Monte Carlo EM. Das Paket wird von einem Studenten in derselben Abteilung wie Geyer geschrieben.
Greenparker

Das ist sehr vielversprechend. Ich hatte immer das Gefühl, dass dieser Bereich der Statistik scheiße ist. Ich meine, es scheint so rückständig zu sein, dass einige der klügsten Köpfe der Welt imaginäre Lemminge fallen lassen, um zu verschiedenen Minima (dh Monte Carlo GAs) zu gehen, um diese Probleme zu lösen
Alexander McFarlane

1
Dieses Papier von Booth und Hobert gilt als wegweisend auf diesem Gebiet. Siehe auch dies . Nicht direkt mit Ihrer Frage verbunden, aber immer noch in der gleichen Nachbarschaft.
Greenparker

1
Nur aus Neugier, wenn Ihr Ziel die Optimierung einer Funktion ist, warum betrachten Sie nicht moderne Methoden zur globalen, nicht konvexen stochastischen Optimierung im Gegensatz zu einem MCMC-Papier aus dem Jahr 1991?
Lacerbi

@lacerbi, weil ich ein theoretischer Doktorand der Physik bin und nicht einmal wusste, dass das gesamte Gebiet existiert (danke!) und zweitens, weil mein Problem eine Verteilungsanpassung erforderte. Ich kenne MCMC sehr gut und ich kenne MLE sehr gut und ich hatte nur das Gefühl, dass sie eine Frequenzweiche haben könnten, die nützlich sein könnte, daher das Papier, das ich entdeckt habe
Alexander McFarlane

Antworten:


6

Wenn ich das richtig verstehe, freuen Sie sich über MCMC bei multimodalen Zielfunktionen. Ihre Argumentation ist, dass MCMC-Methoden den globalen Parameterraum durchsuchen, anstatt nur den nächstgelegenen Modus aufzurufen und anzuhalten.

Während dies theoretisch zutrifft, verhält sich MCMC in der Praxis häufig ähnlich wie Bergsteigermethoden: Sobald sie einen lokalen Modus gefunden haben, bleiben sie häufig in diesem Modus. Im Gegensatz zu Bergsteigermethoden besteht eine positive Wahrscheinlichkeit, dass sie den Modus verlassen, sodass theoretisch der globale Raum erkundet wird, wenn sie lange genug laufen. Für die meisten Sampler ist diese Wahrscheinlichkeit jedoch so gering, dass es nicht zumutbar ist, die Kette lange genug laufen zu lassen, um sicher zu sein, dass der Sampler den globalen Raum ordnungsgemäß erkundet.

Natürlich gibt es Sampler, die versuchen, dies zu beheben, indem sie gelegentlich Ausreißerschritte ausführen (dh prüfen, ob sie dem lokalen Modus entkommen können). Ich denke jedoch nicht, dass diese Probenehmer in Bezug auf die Optimierung mit Standardoptimierungsmethoden zur Erforschung multimodaler Oberflächen (z. B. Partikelschwarm usw.) überhaupt wettbewerbsfähig sein werden.


Um lokalen Minima zu entkommen, gibt es eine Familie von MCMC-Routinen (z. B. diese ), die auf Hamilton-Prinzipien (aus der Physik) basieren und für die Navigation in diesen multimodalen Räumen einigermaßen kompetent erscheinen. Wenn Sie sich Ihr Profil ansehen, wissen Sie zu schätzen, dass dies Ihr Forschungsgebiet ist, und tatsächlich kommt meine Frage in einem ähnlichen Licht wie Ihre sozialen "Streifzüge" . Ich bin mit den Methoden nicht vertraut, aber glauben Sie als Experte, dass die oben beschriebene MCMC-Methode überhaupt einen Wert hätte?
Alexander McFarlane

@AlexanderMcFarlane: Ich bin mir nicht sicher, ob ich mich als "Experte" für MCMC bezeichnen würde, sondern hatte eine professionelle Erfahrung (siehe r-nimble.org, ein Projekt, an dem ich eine Weile gearbeitet habe). Also nimm meinen Rat mit einem Körnchen Salz an. Das heißt, ich würde keine generischen MCMC-Methoden wie MH Random Walks für das verwenden, was Sie wollen. Sampler, die aggressiv versuchen, die Grenzen des Wahrscheinlichkeitsraums zu erkunden, haben möglicherweise mehr Glück (Paywall für Ihren Link, also kein Kommentar, ob er die Kriterien erfüllt).
Cliff AB

0

MCMC konvergiert im Allgemeinen nicht zu einem festen Punkt. Konvergenz ist die stationäre Verteilung einer Markov-Kette. Die Zeichnungen sind unterschiedlich, aber lose wird die Verteilung, aus der sie gezogen werden, festgelegt.

MCMC-Methoden leiden im Allgemeinen unter ähnlichen Problemen wie andere Optimierungsmethoden. Zum Beispiel ist es einfach, Ketten zu entwerfen, die selten den lokalen Minima entkommen. Es gibt eine ganze Literatur mit Tricks, um solche Probleme für verschiedene Modelle zu lösen.

Das heißt und als Antwort auf Ihre zweite Frage, hier ist eine schnelle und schmutzige Möglichkeit, MCMC für die Parameterschätzung zu verwenden:

  1. Führen Sie die Kette aus und generieren Sie Parameterbeispiele.
  2. Holen Sie sich die Wahrscheinlichkeit unter jeder Stichprobe der Parameter.
  3. Vergleichen Sie die Wahrscheinlichkeiten der MCMC-Stichproben mit Ihrer bevorzugten MLE.
  4. Wenn eines der MCMC-Beispiele besser abschneidet, war es nicht wirklich ein globales MLE.
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.