(Diese Antwort verwendet den zweiten von Ihnen angegebenen Link.)
Erinnern Sie sich an die Definition der Wahrscheinlichkeit: ,
wo in unserem Fall sind die Schätzer für die Wahrscheinlichkeit , dass Münzen A und B jeweils Landköpfe, , um die Ergebnisse unserer Experimente wobei jeder besteht aus 10 Flips und
ist die in jedem Experiment verwendete Münze.θ = ( θ A , θ B ) X = ( X 1 , ... , X 5 ) X i Z = ( Z 1 , ... , Z 5 )
L[θ|X]=Pr[X|θ]=∑ZPr[X,Z|θ]
θ=(θA,θB)X=(X1,…,X5)XiZ=(Z1,…,Z5)
Wir wollen den Maximum-Likelihood-Schätzer . Der Expectation-Maximization (EM) -Algorithmus ist eine solche Methode, um (zumindest lokal) . Es funktioniert, indem es die bedingte Erwartung findet, die dann verwendet wird, um zu maximieren . Die Idee ist, dass
wir durch kontinuierliches Finden eines wahrscheinlicheren (dh wahrscheinlicheren) in jeder Iteration kontinuierlich erhöhen, was wiederum die Wahrscheinlichkeitsfunktion erhöht. Vor dem Entwurf eines EM-basierten Algorithmus müssen drei Schritte ausgeführt werden. & thgr; & thgr;& thgr;Pr[X,Z| θ]θ^θ^θθPr[X,Z|θ]
- Konstruieren Sie das Modell
- Bedingte Erwartung unter dem Modell berechnen (E-Step)
- Maximieren Sie unsere Wahrscheinlichkeit, indem Sie unsere aktuelle Schätzung von (M-Step) aktualisieren.θ
Konstruieren Sie das Modell
Bevor wir mit EM weitermachen, müssen wir herausfinden, was genau wir berechnen. Im E-Schritt berechnen wir genau den erwarteten Wert für . Also, was ist dieser Wert wirklich? Beachten Sie, dass
Der Grund dafür ist, dass wir 5 Experimente durchführen müssen und nicht wissen, welche Münzen in den einzelnen verwendet wurden. Die Ungleichung ist auflog Pr [ X , Z | θ ]LogPr [ X, Z| θ]Log
logPr[X,Z|θ]=∑i=15log∑C∈{A,B}Pr[Xi,Zi=C|θ]=∑i=15log∑C∈{A,B}Pr[Zi=C|Xi,θ]⋅Pr[Xi,Zi=C|θ]Pr[Zi=C|Xi,θ]≥∑i=15∑C∈{A,B}Pr[Zi=C|Xi, θ]⋅logPr[Xi,Zi=C| θ]Pr [Zi=C|Xich, θ].
Logkonkav sein und Jensens Ungleichung anwenden. Der Grund, warum wir diese Untergrenze brauchen, ist, dass wir das arg max nicht direkt mit der ursprünglichen Gleichung berechnen können. Wir können es jedoch für die letzte Untergrenze berechnen.
Was ist nun ? Es ist die Wahrscheinlichkeit, dass wir bei Experiment und Münze . Mit bedingten Wahrscheinlichkeiten haben wirC X i & thgr ; Pr [ Z i = C | X i , θ ] = Pr [ X i , Z i = C | θ ]Pr [ Zich= C| Xich, θ ]CXiθ
Pr[Zi=C|Xi,θ]=Pr[Xi,Zi=C|θ]Pr[Xi|θ].
Obwohl wir einige Fortschritte erzielt haben, sind wir mit dem Modell noch nicht fertig. Mit welcher Wahrscheinlichkeit hat eine bestimmte Münze die Sequenz ? Lassen Sie
Jetzt ist eindeutig nur die Wahrscheinlichkeit , unter den beiden Möglichkeiten der oder . Da ist, ist
h i = # Köpfe in X i Pr [ X i , Z i = C | θ ] = 1Xihi=#heads in Xi
Pr[Xi,Zi=C|θ]=12⋅θhiC(1−θC)10−hi, for C∈{A,B}.
Pr[Xi|θ]Zi=AZi=BPr[Zi=A]=Pr[Zi=B]=1/2Pr[Xi|θ]=1/2⋅(Pr[Xi|Zi=A,θ]+Pr[Xi|Zi=B,θ]).
E-Step
Okay ... das hat nicht so viel Spaß gemacht, aber wir können jetzt mit der EM-Arbeit beginnen. Der EM-Algorithmus beginnt mit einer zufälligen Schätzung für . In diesem Beispiel haben wir . Wir berechnen
Dieser Wert stimmt mit dem überein, was in der Zeitung steht. Jetzt können wir die erwartete Anzahl von Köpfen in aus Münze ,
berechnen
Tun wir dasselbe für Münze ,
θθ0=(0.6,0.5)
Pr[Z1=A|X1,θ]=1/2⋅(0.65⋅0.45)1/2⋅((0.65⋅0.45)+(0.55⋅0.55))≈0.45.
X1=(H,T,T,T,H,H,T,H,T,H)AE[#heads by coin A|X1,θ]=h1⋅Pr[Z1=A|X1,θ]=5⋅0.45≈2.2.
BE[#heads by coin B|X1,θ]=h1⋅Pr[Z1=B|X1,θ]=5⋅0.55≈2.8.
Wir können dasselbe für die Anzahl der Schwänze berechnen, indem wir durch ersetzen . Dies wird für alle anderen Werte von und fortgesetzt . Dank der Linearität der Erwartung können wir herausfinden,
h110−h1Xihi 1≤i≤5E[#heads by coin A|X,θ]=∑i=15E[#heads by coin A|Xi,θ]
M-Step
Mit unseren erwarteten Werten kommt nun der M-Schritt, bei dem wir unter Berücksichtigung unserer erwarteten Werte maximieren möchten
. Dies geschieht durch einfache Normalisierung!
Das gleiche gilt für . Dieser Prozess beginnt erneut mit dem E-Schritt und thgr; und setzt sich fort, bis die Werte für thgr; konvergieren (oder bis zu einem zulässigen Schwellenwert). In diesem Beispiel haben wir 10 Iterationen und . Bei jeder Iteration steigt der Wert von
aufgrund der besseren Schätzung vonθ
θ1A=E[#heads over X by coin A|X,θ]E[#heads and tails over X by coin A|X,θ]=21.321.3+9.6≈0.71.
Bθ1θθ^=θ10=(0.8,0.52)Pr[X,Z|θ]θ .
In diesem Fall war das Modell ziemlich simpel. Die Dinge können ziemlich schnell viel komplizierter werden, jedoch wird der EM-Algorithmus immer konvergieren und wird immer einen Schätzer für die maximale Wahrscheinlichkeit erzeugen . Es kann ein lokaler Schätzer sein, aber um dies zu umgehen, können wir den EM-Prozess einfach mit einer anderen Initialisierung neu starten. Wir können dies eine konstante Anzahl von Malen tun und die besten Ergebnisse beibehalten (dh diejenigen mit der höchsten endgültigen Wahrscheinlichkeit).θ^