Die MLE - Methode kann in Fällen angewendet werden , wo jemand die grundlegenden Funktions kennt Form des pdf (zB es die Gaußsche oder log-normal, oder exponentiell, oder was auch immer), aber nicht die zugrundeliegenden Parameter; zB kennen sie die Werte von und σ im pdf nicht: f ( x | μ , σ ) = 1μσ oder eine andere Art von PDF, die sie annehmen. Die Aufgabe der MLEMethode istdie besten (dh plausibelste) Werte für den unbekannten Parameter zu wählen, da die Daten der jeweiligen Messungenx1,x2,x3,. . . die tatsächlich beobachtet wurden. Um Ihre erste Frage zu beantworten: Ja, Sie haben immer das Recht, jemanden zu fragen, welcheFormvon PDF er für seine maximale Wahrscheinlichkeitsschätzung annimmt. In der Tat sind die geschätzten Parameterwerte, die sie Ihnen mitteilen, nicht einmal aussagekräftig, es sei denn, sie kommunizieren zuerst diesen Kontext.
f(x|μ,σ)=12πσ2−−−−√exp[−(x−μ)22σ2]
x1,x2,x3,...
Der EM-Algorithmus ist, wie ich in der Vergangenheit gesehen habe, eher eine Art Meta-Algorithmus, bei dem einige der Metadaten fehlen, und das muss man auch schätzen. So zum Beispiel, vielleicht habe ich ein pdf , das eine Mischung aus mehreren Gaussians ist, zum Beispiel: Oberflächlich gesehensieht dies, abgesehen von der Addition des AmplitudenparametersAk, dem vorherigen Problem sehr ähnlich, aber was ist, wenn ich Ihnen sage, dass wir auch den Wert vonN(dh die Zahl)nicht einmal kennenvon Moden in der Gauß'schen Mischung) und wollen wirdass aus den Datenmessungen abzuschätzenx1,x2,x3,. . . auch?
f(x|A1,...,AN,μ1,...,μN,σ1,...σN)=∑k=1NAk2πσ2k−−−−√exp[−(x−μk)22σ2k]
AkNx1,x2,x3,...
In diesem Fall haben Sie ein Problem, weil jeder mögliche Wert von (dies ist der "Meta" -Teil, auf den ich oben anspielte) in gewisser Weise ein anderes Modell erzeugt. Wenn N = 1 , dann haben Sie ein Modell mit drei Parametern ( A 1 , μ 1 , σ 1 ), während wenn N = 2 , dann haben Sie ein Modell mit sechs Parametern ( A 1 , A 2 , μ 1 , μ 2 , σ 1 , σ 2 ). Die besten Anpassungswerte, für die Sie erhalten (NN=1A1μ1σ1N=2A1A2μ1μ2σ1σ2 , μ 1 , σ 1 ) im N = 1- Modell kann nicht direkt mit den besten Anpassungswerten verglichen werden, die Sie für dieselben Parameter im N = 2- Modell erhalten, da es sich um verschiedene Modelle mit einer unterschiedlichen Anzahl von handeltFreiheitsgrade.A1μ1σ1N=1N=2
Die Rolle des EM-Algorithmus besteht darin, einen Mechanismus für solche Vergleiche bereitzustellen (in der Regel durch Auferlegung einer "Komplexitätsstrafe" , die kleinere Werte von bevorzugt ), damit wir den besten Gesamtwert für N auswählen können .NN
N=1N=2N=3