Anwenden von Expectation Maximization auf Beispiele für Münzwürfe

Ich habe in letzter Zeit die Expectation Maximization selbst studiert und mir dabei einige einfache Beispiele geschnappt:

Ab hier : Es gibt drei Münzen , und mit , und der jeweiligen Wahrscheinlichkeit, auf dem Kopf zu landen, wenn sie geworfen werden. Werfen Sie . Wenn das Ergebnis Head ist, wirf dreimal, andernfalls wirf dreimal. Die beobachteten Daten, die von und sind wie folgt: HHH, TTT, HHH, TTT, HHH. Die versteckten Daten sind das Ergebnis von . Schätzen Sie , und . $c_0$ $c_1$ $c_2$ $p_0$ $p_1$ $p_2$ $c_0$ $c_1$ $c_2$ $c_1$ $c_2$ $c_0$ $p_0$ $p_1$ $p_2$

Und von hier : Es gibt zwei Münzen und wobei und die jeweilige Wahrscheinlichkeit für die Landung auf dem Kopf sind, wenn sie geworfen werden. Wähle in jeder Runde eine Münze nach dem Zufallsprinzip und wirf sie zehnmal. Notieren Sie die Ergebnisse. Die beobachteten Daten sind die Wurfergebnisse dieser beiden Münzen. Wir wissen jedoch nicht, welche Münze für eine bestimmte Runde ausgewählt wurde. Schätzen Sie und . $c_A$ $c_B$ $p_A$ $p_B$ $p_A$ $p_B$

Obwohl ich die Berechnungen erhalten kann, kann ich die Art und Weise, wie sie gelöst werden, nicht mit der ursprünglichen EM-Theorie in Beziehung setzen. Insbesondere sehe ich während des M-Schritts in beiden Beispielen nicht, wie sie etwas maximieren. Es scheint nur, dass sie die Parameter neu berechnen, und irgendwie sind die neuen Parameter besser als die alten. Darüber hinaus sehen sich die beiden E-Steps nicht einmal ähnlich, ganz zu schweigen vom E-Step der ursprünglichen Theorie.

Wie genau funktionieren diese Beispiele?

probability-theory statistics

— IcySnow
quelle

Wie viele Instanzen desselben Experiments erhalten wir im ersten Beispiel? Was ist im zweiten Beispiel das Gesetz "eine Münze nach dem Zufallsprinzip auswählen"? Wie viele Runden beobachten wir?

— Raphael

Die PDF-Dateien, die ich verlinkt habe, lösen diese beiden Beispiele bereits Schritt für Schritt. Allerdings verstehe ich den verwendeten EM-Algorithmus nicht wirklich.

— IcySnow

@IcySnow, verstehst du das Konzept der Erwartung und der bedingten Erwartung einer Zufallsvariablen?

— Nicholas Mancuso

Ich verstehe die Grunderwartung einer Zufallsvariablen und die bedingte Wahrscheinlichkeit. Die bedingte Erwartung, ihre Ableitung und ausreichende Statistik sind mir jedoch nicht vertraut.

— IcySnow

(Diese Antwort verwendet den zweiten von Ihnen angegebenen Link.)

$\newcommand{\Like}{\text{L}}\newcommand{\E}{\text{E}}$ Erinnern Sie sich an die Definition der Wahrscheinlichkeit: , wo in unserem Fall sind die Schätzer für die Wahrscheinlichkeit , dass Münzen A und B jeweils Landköpfe, , um die Ergebnisse unserer Experimente wobei jeder besteht aus 10 Flips und ist die in jedem Experiment verwendete Münze.

L [θ | X] = Pr [X | θ] = \sum_{Z} Pr [X, Z | θ]

$\Like[\theta | X] = \Pr[X| \theta] = \sum_Z \Pr[X, Z | \theta]$

θ = (θ_{A}, θ_{B})

$\theta = (\theta_A, \theta_B)$

X = (X_{1}, \dots, X_{5})

$X = (X_1, \dotsc, X_5)$

X_{i}

$X_i$

Z = (Z_{1}, \dots, Z_{5})

$Z = (Z_1, \dotsc, Z_5)$

Wir wollen den Maximum-Likelihood-Schätzer . Der Expectation-Maximization (EM) -Algorithmus ist eine solche Methode, um (zumindest lokal) . Es funktioniert, indem es die bedingte Erwartung findet, die dann verwendet wird, um zu maximieren . Die Idee ist, dass wir durch kontinuierliches Finden eines wahrscheinlicheren (dh wahrscheinlicheren) in jeder Iteration kontinuierlich erhöhen, was wiederum die Wahrscheinlichkeitsfunktion erhöht. Vor dem Entwurf eines EM-basierten Algorithmus müssen drei Schritte ausgeführt werden. $\hat{\theta}$ $\hat{\theta}$ $\theta$ $\theta$ $\Pr[X,Z|\theta]$

Konstruieren Sie das Modell
Bedingte Erwartung unter dem Modell berechnen (E-Step)
Maximieren Sie unsere Wahrscheinlichkeit, indem Sie unsere aktuelle Schätzung von (M-Step) aktualisieren. $\theta$

Konstruieren Sie das Modell

Bevor wir mit EM weitermachen, müssen wir herausfinden, was genau wir berechnen. Im E-Schritt berechnen wir genau den erwarteten Wert für . Also, was ist dieser Wert wirklich? Beachten Sie, dass Der Grund dafür ist, dass wir 5 Experimente durchführen müssen und nicht wissen, welche Münzen in den einzelnen verwendet wurden. Die Ungleichung ist auf $\log \Pr[X,Z|\theta]$

\begin{aligned} \log Pr [X, Z | θ] & = \sum_{ich = 1}^{5} Log \sum_{C \in {EIN, B}} Pr [X_{ich}, Z_{ich} = C | θ] \\ = \sum_{ich = 1}^{5} Log \sum_{C \in {EIN, B}} Pr [Z_{ich} = C | X_{ich}, θ] \cdot \frac{Pr [X_{ich}, Z_{ich} = C | θ]}{Pr [Z_{ich} = C | X_{ich}, θ]} \\ \geq \sum_{ich = 1}^{5} \sum_{C \in {EIN, B}} Pr [Z_{ich} = C | X_{ich}, θ] \cdot Log \frac{Pr [X_{ich}, Z_{ich} = C | θ]}{Pr [Z_{ich} = C | X_{ich}, θ]} . \end{aligned}

$\begin{align*} \log \Pr[X,Z|\theta] &= \sum_{i=1}^5 \log\sum_{C\in \{A,B\}}\Pr[X_i, Z_i=C| \theta]\\ &=\sum_{i=1}^5 \log\sum_{C\in \{A,B\}} \Pr[Z_i=C | X_i, \theta] \cdot \frac{\Pr[X_i, Z_i=C| \theta]}{\Pr[Z_i=C | X_i, \theta]}\\ &\geq \sum_{i=1}^5 \sum_{C\in \{A,B\}} \Pr[Z_i=C | X_i, \theta] \cdot \log\frac{\Pr[X_i, Z_i=C| \theta]}{\Pr[Z_i=C | X_i, \theta]}. \end{align*}$

\log

$\log$ konkav sein und Jensens Ungleichung anwenden. Der Grund, warum wir diese Untergrenze brauchen, ist, dass wir das arg max nicht direkt mit der ursprünglichen Gleichung berechnen können. Wir können es jedoch für die letzte Untergrenze berechnen.

Was ist nun ? Es ist die Wahrscheinlichkeit, dass wir bei Experiment und Münze . Mit bedingten Wahrscheinlichkeiten haben wir $\Pr[Z_i=C|X_i,\theta]$ $C$ $X_i$ $\theta$

Pr [Z_{i} = C | X_{i}, θ] = \frac{Pr [X_{i}, Z_{i} = C | θ]}{Pr [X_{i} | θ]} .

$\Pr[Z_i=C| X_i, \theta] = \frac{\Pr[X_i, Z_i = C|\theta]}{\Pr[X_i|\theta]}.$

Obwohl wir einige Fortschritte erzielt haben, sind wir mit dem Modell noch nicht fertig. Mit welcher Wahrscheinlichkeit hat eine bestimmte Münze die Sequenz ? Lassen Sie Jetzt ist eindeutig nur die Wahrscheinlichkeit , unter den beiden Möglichkeiten der oder . Da ist, ist $X_i$ $h_i = \#\text{heads in } X_i$

Pr [X_{i}, Z_{i} = C | θ] = \frac{1}{2} \cdot θ_{C}^{h_{i}} (1 - θ_{C})^{10 - h_{i}}, for C \in {A, B} .

$\Pr[X_i, Z_i = C| \theta] = \frac{1}{2} \cdot \theta_C^{h_i} (1 - \theta_C)^{10 - h_i},\ \text{ for } \ C \in \{A, B\}.$

Pr [X_{i} | θ]

$\Pr[X_i|\theta]$

Z_{i} = A

$Z_i=A$

Z_{i} = B

$Z_i=B$

Pr [Z_{i} = A] = Pr [Z_{i} = B] = 1 / 2

$\Pr[Z_i = A] = \Pr[Z_i = B] = 1/2$

Pr [X_{i} | θ] = 1 / 2 \cdot (Pr [X_{i} | Z_{i} = A, θ] + Pr [X_{i} | Z_{i} = B, θ]) .

$\Pr[X_i|\theta] = 1/2 \cdot (\Pr[X_i |Z_i = A, \theta] + \Pr[X_i |Z_i = B, \theta]).$

E-Step

Okay ... das hat nicht so viel Spaß gemacht, aber wir können jetzt mit der EM-Arbeit beginnen. Der EM-Algorithmus beginnt mit einer zufälligen Schätzung für . In diesem Beispiel haben wir . Wir berechnen Dieser Wert stimmt mit dem überein, was in der Zeitung steht. Jetzt können wir die erwartete Anzahl von Köpfen in aus Münze , berechnen Tun wir dasselbe für Münze , $\theta$ $\theta^0 = (0.6,0.5)$

Pr [Z_{1} = A | X_{1}, θ] = \frac{1 / 2 \cdot ({0.6}^{5} \cdot {0.4}^{5})}{1 / 2 \cdot (({0.6}^{5} \cdot {0.4}^{5}) + ({0.5}^{5} \cdot {0.5}^{5}))} \approx 0.45.

$\Pr[Z_1=A|X_1,\theta] = \frac{1/2 \cdot (0.6^5 \cdot 0.4^5)}{1/2 \cdot ((0.6^5 \cdot 0.4^5) + (0.5^5 \cdot 0.5^5))} \approx 0.45.$

X_{1} = (H, T, T, T, H, H, T, H, T, H)

$X_1 = (H,T,T,T,H,H,T,H,T,H)$

A

$A$

E [# heads by coin A | X_{1}, θ] = h_{1} \cdot Pr [Z_{1} = A | X_{1}, θ] = 5 \cdot 0.45 \approx 2.2.

$\E[\# \text{heads by coin }A | X_1, \theta] = h_1 \cdot \Pr[Z_1=A|X_1,\theta] = 5 \cdot 0.45 \approx 2.2.$

B

$B$

E [# heads by coin B | X_{1}, θ] = h_{1} \cdot Pr [Z_{1} = B | X_{1}, θ] = 5 \cdot 0.55 \approx 2.8.

$\E[\# \text{heads by coin }B | X_1, \theta] = h_1 \cdot \Pr[Z_1=B|X_1,\theta] = 5 \cdot 0.55 \approx 2.8.$ Wir können dasselbe für die Anzahl der Schwänze berechnen, indem wir durch ersetzen . Dies wird für alle anderen Werte von und fortgesetzt . Dank der Linearität der Erwartung können wir herausfinden,

h_{1}

$h_1$

10 - h_{1}

$10 - h_1$

X_{i}

$X_i$

h_{i}

$h_i$

1 \leq i \leq 5

$1 \leq i \leq 5$

E [# heads by coin A | X, θ] = \sum_{i = 1}^{5} E [# heads by coin A | X_{i}, θ]

$\E[\#\text{heads by coin } A|X ,\theta] = \sum_{i=1}^5 \E[\# \text{heads by coin }A | X_i, \theta]$

M-Step

Mit unseren erwarteten Werten kommt nun der M-Schritt, bei dem wir unter Berücksichtigung unserer erwarteten Werte maximieren möchten . Dies geschieht durch einfache Normalisierung! Das gleiche gilt für . Dieser Prozess beginnt erneut mit dem E-Schritt und thgr; und setzt sich fort, bis die Werte für thgr; konvergieren (oder bis zu einem zulässigen Schwellenwert). In diesem Beispiel haben wir 10 Iterationen und . Bei jeder Iteration steigt der Wert von aufgrund der besseren Schätzung von $\theta$

θ_{A}^{1} = \frac{E [# heads over X by coin A | X, θ]}{E [# heads and tails over X by coin A | X, θ]} = \frac{21.3}{21.3 + 9.6} \approx 0.71.

$\theta_A^1 = \frac{E[\#\text{heads over } X \text{ by coin } A|X ,\theta]}{E[\#\text{heads and tails over } X \text{ by coin } A|X ,\theta]} = \frac{21.3}{21.3 + 9.6} \approx 0.71.$

B

$B$

θ^{1}

$\theta^1$

θ

$\theta$

\hat{θ} = θ^{10} = (0.8, 0.52)

$\hat{\theta} = \theta^{10} = (0.8, 0.52)$

Pr [X, Z | θ]

$\Pr[X,Z|\theta]$

θ

$\theta$ .

In diesem Fall war das Modell ziemlich simpel. Die Dinge können ziemlich schnell viel komplizierter werden, jedoch wird der EM-Algorithmus immer konvergieren und wird immer einen Schätzer für die maximale Wahrscheinlichkeit erzeugen . Es kann ein lokaler Schätzer sein, aber um dies zu umgehen, können wir den EM-Prozess einfach mit einer anderen Initialisierung neu starten. Wir können dies eine konstante Anzahl von Malen tun und die besten Ergebnisse beibehalten (dh diejenigen mit der höchsten endgültigen Wahrscheinlichkeit). $\hat{\theta}$

— Nicholas Mancuso
quelle

Wenn irgendwelche Teile nicht klar sind, kann ich versuchen, sie auch zu erweitern.

— Nicholas Mancuso

Es wird jetzt viel klarer. Was ich nicht wirklich verstehe, ist, warum die erwartete Anzahl der Köpfe für Münze A wie folgt berechnet wurde: E [#Köpfe nach Münze A | X1, θ] = h1⋅Pr [Z1 = A | X1, θ] = 5⋅0,45 ≈2,2? Das im ersten PDF erwähnte Problem ist komplizierter. Wenn es Ihnen nichts ausmacht, können Sie auch einige anschauliche Berechnungen dafür durchführen? Vielen Dank für Ihre Antwort.

— IcySnow

@IcySnow, so weit die Erwartungsrechnung reicht: pro . Der Grund ist, dass Sie sich vorstellen können, dass es eine andere Indikator-Zufallsvariable gibt, wenn A verwendet wurde. Das Berechnen der Erwartung über Indikatorvariablen ist einfach die Wahrscheinlichkeit dieses Ereignisses.

E [# heads by coin A | X_{1}, θ] = \sum_{# heads in X_{1}} Pr [Z_{1} = A | X_{1}, θ] = 5 \cdot Pr [Z_{1} = A | X_{1}, θ]

$E[\# \text{ heads by coin }A|X_1,\theta] = \sum_{\#\text{ heads in }X_1} \Pr[Z_1 = A| X_1, \theta] = 5 \cdot \Pr[Z_1 = A| X_1, \theta]$

— Nicholas Mancuso

Entschuldigung für die langsame Antwort. Dank Ihnen kann ich jetzt die Logik hinter den beiden Münzbeispielen wirklich verstehen, nachdem ich Ihre Antwort viele Male durchgesehen habe. Zu dieser Frage möchte ich noch eine letzte Frage stellen: Das Beispiel ab Seite 8 in dieser Folie cs.northwestern.edu/~ddowney/courses/395_Winter2010/em.ppt zeigt, dass wir im M-Step zuerst rechnen müssen die Ableitung der Log-Likelihood-Funktion und verwenden Sie sie, um die Erwartung zu maximieren. Warum steht so etwas nicht in den M-Steps der Münzwurfbeispiele? Weil diese M-Schritte nicht so aussehen, als würden sie irgendetwas maximieren

— IcySnow

Ich bin durch die erste angezeigte Gleichung nach "Konstruieren des Modells" verwirrt. Können Sie erklären, woher das kommt? Es sieht für mich aus wie , also ist die innere Summe 1 für jedes , also die gesamte rechte Seite wird zu null. Ich bin sicher, ich vermisse etwas - können Sie die Überlegungen darlegen, wie Sie zu dieser Gleichung gekommen sind?

Pr [Z_{i} = A | X_{i}, θ] + Pr [Z_{i} = B | X_{i}, θ] = 1

$\Pr[Z_i=A|X_i,\theta]+\Pr[Z_i=B|X_i,\theta]=1$

i

$i$

— DW