Bedeutet MLE immer, dass wir das zugrunde liegende PDF unserer Daten kennen, und bedeutet EM, dass wir es nicht kennen?

Ich habe einige einfache konzeptionelle Fragen, die ich in Bezug auf MLE (Maximum Likelihood Estimation) klären möchte, und welchen Zusammenhang es gegebenenfalls mit EM (Expectation Maximization) hat.

Wenn jemand sagt, "Wir haben die MLE verwendet", bedeutet dies nach meinem Verständnis dann automatisch, dass er ein explizites Modell der PDF-Datei seiner Daten hat? Es scheint mir, dass die Antwort darauf ja ist. Anders ausgedrückt, wenn jemand zu irgendeinem Zeitpunkt "MLE" sagt, ist es fair, ihn zu fragen, welches PDF er annimmt. Wäre das richtig?

In Bezug auf EM verstehe ich schließlich, dass wir in EM das zugrunde liegende PDF unserer Daten nicht wirklich kennen - oder kennen müssen. Das ist mein Verständnis.

Vielen Dank.

estimation maximum-likelihood expectation-maximization

— Creatron
quelle

Das "M" in EM steht für Maximierung ... der Wahrscheinlichkeit. Um eine Wahrscheinlichkeit aufzuschreiben, benötigen wir ein PDF. EM ist ein Weg, um MLEs in Gegenwart von 'nicht beobachtbaren' zu finden (die im E-Schritt ausgefüllt werden). Das heißt, um EM zu verwenden, benötigen Sie ein explizites Modell.

— Glen_b

@ Glen_b Danke Gleb_b. Also, 1) wäre es richtig zu sagen, dass wir in EM, wie in MLE, immer ein Modell des PDFs der Daten annehmen ? Das heißt, wenn jemand sagt "Wir haben MLE / EM verwendet", können wir ziemlich fragen: "Was PDFs haben Sie angenommen ". Wäre dies eine korrekte Einschätzung? 2) In Bezug auf EM glaube ich, dass die Unobservables, auf die Sie sich beziehen, die Wahrscheinlichkeiten für bestimmte PDFs sind, aus denen die Mischung besteht, richtig? Vielen Dank im Voraus.

— Creatron

Beachten Sie, dass es nicht parametrische Maximum-Likelihood-Methoden gibt. Schauen Sie nach Kaplan-Meier.

— Soakley

Creatron - on (1) Beachten Sie, dass EM ein Algorithmus zur Berechnung von MLEs ist , mit denen sonst nur schwer umzugehen wäre. In beiden Fällen würde ich die etwas allgemeinere Frage stellen: "Was war Ihr Modell?", Da es durchaus möglich ist, dass das Modell komplexer ist als ein einzelnes PDF. Ein (2) Der EM-Algorithmus gilt nicht nur für Gemische. es ist allgemeiner als das.

— Glen_b

Antworten:

Die MLE - Methode kann in Fällen angewendet werden , wo jemand die grundlegenden Funktions kennt Form des pdf (zB es die Gaußsche oder log-normal, oder exponentiell, oder was auch immer), aber nicht die zugrundeliegenden Parameter; zB kennen sie die Werte von und im pdf nicht: $\mu$ $\sigma$ oder eine andere Art von PDF, die sie annehmen. Die Aufgabe der MLEMethode istdie besten (dh plausibelste) Werte für den unbekannten Parameter zu wählen, da die Daten der jeweiligen Messungendie tatsächlich beobachtet wurden. Um Ihre erste Frage zu beantworten: Ja, Sie haben immer das Recht, jemanden zu fragen, welcheFormvon PDF er für seine maximale Wahrscheinlichkeitsschätzung annimmt. In der Tat sind die geschätzten Parameterwerte, die sie Ihnen mitteilen, nicht einmal aussagekräftig, es sei denn, sie kommunizieren zuerst diesen Kontext.

f (x | μ, σ) = \frac{1}{\sqrt{2 π σ^{2}}} \exp [\frac{- (x - μ)^{2}}{2 σ^{2}}]

$f(x|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left[\frac{-(x-\mu)^{2}}{2 \sigma^{2}}\right]$

x_{1}, x_{2}, x_{3}, . . .

$x_{1}, x_{2}, x_{3}, ...$

Der EM-Algorithmus ist, wie ich in der Vergangenheit gesehen habe, eher eine Art Meta-Algorithmus, bei dem einige der Metadaten fehlen, und das muss man auch schätzen. So zum Beispiel, vielleicht habe ich ein pdf , das eine Mischung aus mehreren Gaussians ist, zum Beispiel: Oberflächlich gesehensieht dies, abgesehen von der Addition des Amplitudenparameters, dem vorherigen Problem sehr ähnlich, aber was ist, wenn ich Ihnen sage, dass wir auch den Wert von(dh die Zahl)nicht einmal kennenvon Moden in der Gauß'schen Mischung) und wollen wirdass aus den Datenmessungen abzuschätzenauch?

f (x | A_{1}, . . ., A_{N}, μ_{1}, . . ., μ_{N}, σ_{1}, . . . σ_{N}) = \sum_{k = 1}^{N} \frac{A_{k}}{\sqrt{2 π σ_{k}^{2}}} \exp [\frac{- (x - μ_{k})^{2}}{2 σ_{k}^{2}}]

$f(x|A_{1},...,A_{N},\mu_{1},...,\mu_{N}, \sigma_{1},...\sigma_{N}) = \sum_{k=1}^{N} \frac{A_{k}}{\sqrt{2\pi\sigma_{k}^{2}}} \exp\left[\frac{-(x-\mu_{k})^{2}}{2 \sigma_{k}^{2}}\right]$

A_{k}

$A_{k}$

N

$N$

x_{1}, x_{2}, x_{3}, . . .

$x_{1}, x_{2}, x_{3}, ...$

In diesem Fall haben Sie ein Problem, weil jeder mögliche Wert von (dies ist der "Meta" -Teil, auf den ich oben anspielte) in gewisser Weise ein anderes Modell erzeugt. Wenn , dann haben Sie ein Modell mit drei Parametern ( , , ), während wenn , dann haben Sie ein Modell mit sechs Parametern ( , , , , , ). Die besten Anpassungswerte, für die Sie erhalten ( $N$ $N=1$ $A_{1}$ $\mu_{1}$ $\sigma_{1}$ $N=2$ $A_{1}$ $A_{2}$ $\mu_{1}$ $\mu_{2}$ $\sigma_{1}$ $\sigma_{2}$ , , ) im Modell kann nicht direkt mit den besten Anpassungswerten verglichen werden, die Sie für dieselben Parameter im Modell erhalten, da es sich um verschiedene Modelle mit einer unterschiedlichen Anzahl von handeltFreiheitsgrade. $A_{1}$ $\mu_{1}$ $\sigma_{1}$ $N=1$ $N=2$

Die Rolle des EM-Algorithmus besteht darin, einen Mechanismus für solche Vergleiche bereitzustellen (in der Regel durch Auferlegung einer "Komplexitätsstrafe" , die kleinere Werte von bevorzugt ), damit wir den besten Gesamtwert für auswählen können . $N$ $N$

$N=1$ $N=2$ $N=3$

— Stachyra
quelle

\sum A_{k} = 1

$\sum A_k = 1$

N

$N$

N

$N$

\sum A_{k} = 1

$\sum A_{k} = 1$

N

$N$

N

$N$

N = 4

$N=4$

N = 5

$N=5$

— Stachyra

Danke Stachyra. Letzte Frage: Das PDF unserer Datenmischung (angegeben in Ihrer zweiten Gleichung, die sich aus einer gewichteten Summe von PDFs zusammensetzt) ist NICHT dasselbe wie das gemeinsame PDF aller Beispiele unserer Daten, die ein Produkt ihrer PDFs sind. Richtig ? (Angenommen, die Datenproben sind IID).

— Creatron

Nein, überhaupt nicht - es sind zwei völlig verschiedene Dinge. Das gemeinsame PDF, das Sie beschreiben, ähnelt viel eher der Form der Wahrscheinlichkeitsfunktion, die in MLE verwendet wird. Ein Lehrbuch könnte Ihnen hier hilfreich sein. Für MLE gefällt mir Kapitel 10 von "Datenreduktion und Fehleranalyse für die Physik" von Philip R. Bevington und D. Keith Robinson oder Abschnitt 6.1 von "Statistical Data Analysis" von Glen Cowan. Für ein konkretes Beispiel, wie man eine bestimmte Art der EM-Implementierung durchführt, mag ich diese Erklärung, Abschnitte 2 bis 5.

— Stachyra

MLE erfordert mindestens die Kenntnis der Randverteilungen. Bei der Verwendung von MLE schätzen wir die Parameter einer gemeinsamen Verteilung normalerweise, indem wir eine iid-Annahme treffen und dann die gemeinsame Verteilung als Produkt der uns bekannten Ränder berücksichtigen. Es gibt Variationen, aber das ist in den meisten Fällen die Idee. MLE ist also eine parametrische Methode.

Der EM-Algorithmus ist ein Verfahren zum Maximieren der Wahrscheinlichkeitsfunktionen, die als Teil eines MLE-Algorithmus auftreten. Es wird oft (normalerweise?) Für numerische Lösungen verwendet.

Wann immer wir MLE verwenden, benötigen wir mindestens die Randverteilungen und einige Annahmen darüber, wie die Verbindung mit den Randbedingungen zusammenhängt (Unabhängigkeit usw.). Beide Methoden beruhen daher auf Verteilungskenntnissen.

— Charles Pehlivanian
quelle

Danke @Charles, das macht Sinn. Was bedeutet es dann, wenn von "nicht parametrischem MLE" die Rede ist? Dieser Satz ergibt auf den ersten Blick keinen Sinn. MLE schätzen immer einen Parameter der Verteilung, oder?

— Creatron

Sie sprechen möglicherweise von ELE (Empirical Likelihood Estimation). Ich habe es nie benutzt. Ich versuche es zu erklären, wenn nötig. Ansonsten bin ich mir nicht sicher.

— Charles Pehlivanian