MCMC / EM-Einschränkungen? MCMC über EM?


9

Ich lerne derzeit hierarchische Bayes'sche Modelle mit JAGS von R und Pymc mit Python ( "Bayes'sche Methoden für Hacker" ).

Ich kann mir einen Eindruck von diesem Beitrag verschaffen : "Sie werden am Ende einen Haufen Zahlen haben, der aussieht", als ob "Sie es irgendwie geschafft hätten, unabhängige Proben aus der komplizierten Verteilung zu entnehmen, über die Sie wissen wollten." Es ist so etwas wie ich die bedingte Wahrscheinlichkeit angeben kann, dann kann ich einen memorylosen Prozess basierend auf der bedingten Wahrscheinlichkeit erzeugen. Wenn ich den Prozess lange genug generiere, kann die gemeinsame Wahrscheinlichkeit konvergieren. Am Ende der generierten Sequenz kann ich einen Stapel Zahlen nehmen. Es ist so, als würde ich unabhängige Proben aus der komplizierten gemeinsamen Verteilung entnehmen. Zum Beispiel kann ich ein Histogramm erstellen und es kann die Verteilungsfunktion approximieren.

Dann ist mein Problem, muss ich beweisen, ob eine MCMC für ein bestimmtes Modell konvergiert? Ich bin motiviert, dies zu wissen, weil ich zuvor den EM-Algorithmus für GMM und LDA (grafische Modelle) gelernt habe. Wenn ich nur den MCMC-Algorithmus verwenden kann, ohne zu beweisen, ob er konvergiert, kann er viel mehr Zeit sparen als EM. Da muss ich die erwartete Log-Likelihood-Funktion berechnen (muss die hintere Wahrscheinlichkeit berechnen) und dann die erwartete Log-Wahrscheinlichkeit maximieren. Es ist anscheinend umständlicher als das MCMC (ich muss nur die bedingte Wahrscheinlichkeit formulieren).

Ich frage mich auch, ob die Wahrscheinlichkeitsfunktion und die vorherige Verteilung konjugiert sind. Bedeutet das, dass die MCMC konvergieren muss? Ich wundere mich über die Einschränkungen von MCMC und EM.


2
n

3
EM ist schneller, nicht Bayes'sch (nicht jeder liebt Bayes'sche Statistiken) und weist in einigen Fällen weniger Identifizierbarkeitsprobleme auf (es konvergiert zu einem einzelnen Maximalwert , während Sie mit dem MCMC-Ansatz eine gesamte Verteilung haben, die komplizierter sein könnte als die Punktschätzung ) usw.
Tim

2
EM wird für die maximale Wahrscheinlichkeit oder maximale a posteriori-Schätzung verwendet, wurde jedoch ursprünglich als ML-Algorithmus beschrieben und wird häufig im ML-Ansatz verwendet (siehe en.wikipedia.org/wiki/… ).
Tim

1
Selbst wenn Sie EM für die MAP-Schätzung anstelle von ML verwenden, ist es für mich nicht Bayesianisch, da es versucht, die posteriore Verteilung zu charakterisieren, aber Ihnen nur den lokalen Modus davon liefert.
Luca

1
Für mich ist die Verwendung von EM nicht Bayesianisch, da es Ihnen eine Punktschätzung Ihrer interessierenden Parameter gibt und nicht die vollständige posteriore Verteilung quantifiziert. Sowohl mit EM als auch mit MCMC kann man ein vollständiges Wahrscheinlichkeitsmodell mit Prioritäten, latenten und beobachteten Zufallsvariablen haben, aber die Folgerung ist unterschiedlich. MCMC zielt darauf ab, die vollständige posteriore Verteilung zu charakterisieren, während EM nicht die Informationen der vollständigen posterioren Verteilung vermittelt. Für mich ist ein Bayesianer jemand, der die hintere Verteilung zur Entscheidungsfindung verwendet. Dies kann jedoch vereinfachend sein. Ich lerne auch dieses Zeug.
Luca

Antworten:


13

EM ist eine Optimierungstechnik: Bei einer Wahrscheinlichkeit mit nützlichen latenten Variablen wird ein lokales Maximum zurückgegeben, das je nach Startwert ein globales Maximum sein kann.

MCMC ist eine Simulationsmethode: Bei einer Wahrscheinlichkeit mit oder ohne latente Variablen und einer vorherigen erzeugt es eine Probe, die ungefähr von der posterioren Verteilung verteilt ist. Die ersten Werte dieser Probe hängen normalerweise vom Startwert ab, was bedeutet, dass sie häufig als Einbrennphase (oder Aufwärmphase) verworfen werden.

Wenn diese Stichprobe verwendet wird, um Integrale zu bewerten, die mit der posterioren Verteilung assoziiert sind [die überwiegende Mehrheit der Fälle], sind die Konvergenzeigenschaften aufgrund des ergodischen Theorems im Wesentlichen dieselben wie die einer iid-Monte-Carlo-Näherung.

(xt,,xt+T)π(x|D)

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.