Gibt es für jedes MLE-Problem immer einen Maximierer?

23

Ich frage mich, ob es immer einen Maximierer für ein (log-) Wahrscheinlichkeitsschätzungsproblem gibt. Mit anderen Worten, gibt es eine Verteilung und einige ihrer Parameter, für die das MLE-Problem keinen Maximierer hat?

Meine Frage stammt aus der Behauptung eines Ingenieurs, dass die Kostenfunktion (Wahrscheinlichkeit oder logarithmische Wahrscheinlichkeit, ich bin nicht sicher, welche beabsichtigt war) in MLE immer konkav ist und daher immer einen Maximierer hat.

Danke und Grüße!

maximum-likelihood optimization

— Tim
quelle

8

(+1) Sind Sie sicher, dass Ihre Frage einige nicht genannte Qualifikationen enthält? So wie es aussieht, ist die Aussage des Ingenieurs in vielerlei Hinsicht falsch, und es ist fast schwer zu wissen, wo man anfangen soll. :)

— Kardinal

@ Cardinal: Ich habe im Grunde genommen aufgeschrieben, was ich gehört habe. Aber ich gebe zu, ich kann etwas vermissen.

— Tim

5

Gegenbeispiel (Konvexität): Sei iid . Obwohl es eine eindeutige MLE gibt, ist weder die Wahrscheinlichkeit noch die log-Wahrscheinlichkeit in konvex .

X_{1}, X_{2}, \dots, X_{n}

$X_1,X_2,\ldots,X_n$

N (0, σ^{2})

$\mathcal N(0,\sigma^2)$

σ^{2}

$\sigma^2$

— Kardinal

3

@Tim Logistic Regression ist ein grundlegendes Beispiel, bei dem die MLE nicht immer vorhanden ist. Zusätzlich ist für einige Link-Funktionen die Log-Wahrscheinlichkeit nicht konkav.

30

Vielleicht hatte der Ingenieur kanonische Exponentialfamilien im Sinn: In ihrer natürlichen Parametrisierung ist der Parameterraum konvex und die logarithmische Wahrscheinlichkeit konkav (siehe Thm 1.6.3 in der mathematischen Statistik von Bickel & Doksum , Band 1 ). Unter einigen milden technischen Bedingungen (im Grunde genommen, dass das Modell "vollwertig" oder gleichwertig ist, dass der natürliche Parameter identifizierbar ist) ist die Log-Likelihood-Funktion streng konkav, was impliziert, dass es einen eindeutigen Maximierer gibt. (Folgerung 1.6.2 in derselben Referenz.) [Auch die von @biostat zitierten Vorlesungsunterlagen machen den gleichen Punkt.]

Beachten Sie, dass sich die natürliche Parametrisierung einer kanonischen Exponentialfamilie normalerweise von der Standardparametrisierung unterscheidet. Während @ cardinal darauf hinweist, dass die log-Wahrscheinlichkeit für die Familie in nicht konvex ist , ist sie in den natürlichen Parametern konkav, die und . $\mathcal{N}(\mu,\sigma^2)$ $\sigma^2$ $\eta_1 = \mu / \sigma^2$ $\eta_2 = -1/\sigma^2$

— DavidR
quelle

2

(+1) Gute Antwort. Wie in meinen Kommentaren zum OP angedeutet, ist dies die Antwort, von der ich gehofft hatte, dass sie veröffentlicht wird (selbst das Gegenbeispiel wurde in diesem Sinne sorgfältig ausgewählt). :)

— Kardinal

2

Können Sie dies im multivariaten Gaußschen Modell zeigen?

— Royi

6

Die Wahrscheinlichkeitsfunktion erreicht häufig ein Maximum für die Schätzung des interessierenden Parameters. Trotzdem existiert manchmal kein MLE, wie zum Beispiel für die Gaußsche Gemischverteilung oder nichtparametrische Funktionen, die mehr als einen Peak aufweisen (bi oder multi-modal). Ich stehe oft vor dem Problem, populationsgenetische Parameter abzuschätzen, dh Rekombinationsraten, Auswirkung der natürlichen Selektion.

Einer der Gründe, warum @ cardinal auch darauf hinweist, ist der unbegrenzte parametrische Raum.

Außerdem würde ich den folgenden Artikel empfehlen , siehe Abschnitt 3 (zur Funktion) und Abb.3. Es gibt jedoch recht nützliche und nützliche Dokumentinformationen über MLE.

— Biostat
quelle

3

Ich denke, ich muss Ihr angegebenes Beispiel missverstehen. Welche quadratischen Funktionen haben mehr als einen Peak?

— Kardinal

@ Cardinal: Lassen Sie mich versuchen, zu erklären. Ihr Hinweis auf einen unbegrenzten Parameter ist einer der Gründe, warum die Wahrscheinlichkeitsfunktion nicht das Maximum erreicht, selbst wenn es sich um ein einfaches Beispiel für eine Normalverteilung handelt. Mein Standpunkt ist jedoch aus Optimierungssicht, dass es ein beliebtes Problem lokaler und globaler Maxima gibt. Ich habe mich in der Populationsgenetik häufig mit diesem Problem befasst, während ich die Rekombinationsraten abgeschätzt habe. Siehe Außerdem diesen Artikel Abschnitt 3 (für Funktion) und Bild 3. Artikel URL: citeseerx.ist.psu.edu/viewdoc/...

— Biostat

Wollen Sie damit sagen, dass "quadratische Funktionen mit mehr als einem Peak" möglicherweise auf ein Gaußsches Mischungsmodell verweisen? In diesem Fall könnte eine Bearbeitung möglicherweise Verwirrung stiften.

— Kardinal

Jetzt ist es aktualisiert.

— Biostat

2

(+1) Für das Update. Es ist zu beachten, dass in Gaußschen Mischungsmodellen im Allgemeinen sowohl eine unbegrenzte Wahrscheinlichkeit als auch multiple lokale Maxima vorliegen. Erschwerend kommt hinzu, dass bei besonders pathologischen Lösungen die Wahrscheinlichkeit unbegrenzt ist. Im Allgemeinen sind Mehrfachmaxima möglicherweise nicht so problematisch. In einigen Fällen konvergieren diese Maxima schnell genug miteinander, so dass die Auswahl eines dieser Maxima immer noch einen vernünftigen (gleichmäßigen, effizienten) Schätzer des interessierenden Parameters asymptotisch liefert.

— Kardinal

3

Ich gebe zu, ich kann etwas vermissen, aber -

Wenn dies ein Schätzproblem ist und das Ziel darin besteht, einen unbekannten Parameter zu schätzen, und der Parameter aus einer geschlossenen und begrenzten Menge stammt und die Wahrscheinlichkeitsfunktion stetig ist, muss für diesen Parameter ein Wert vorhanden sein, der maximiert die Wahrscheinlichkeitsfunktion. Es muss also ein Maximum geben. (Es muss nicht eindeutig sein, es muss jedoch mindestens ein Maximum vorhanden sein. Es gibt keine Garantie dafür, dass alle lokalen Maxima globale Maxima sind, dies ist jedoch keine notwendige Bedingung für die Existenz eines Maximums.)

Ich weiß nicht, ob die Wahrscheinlichkeitsfunktion immer konvex sein muss, aber das ist keine notwendige Bedingung, damit es ein Maximum gibt.

Wenn ich etwas übersehen habe, würde ich gerne hören, was mir fehlt.

— DW
quelle

4

Ohne zusätzliche Annahmen ist die Aussage zu den Maxima falsch. Wenn beispielsweise der Parameterraum geschlossen und begrenzt ist und die Wahrscheinlichkeitsfunktion in den Parametern stetig ist, muss ein Maximum vorhanden sein. Fehlt eine dieser zusätzlichen Bedingungen, muss das Ergebnis nicht gelten. Was die Konvexität anbelangt, versagt sie selbst bei den einfachsten und häufigsten Beispielen. :)

— Kardinal

2

(+1) Die Begrenztheit des Parameterraums gilt auch in vielen einfachen Fällen nicht. Aus praktischen Gründen wissen wir jedoch im Allgemeinen, dass unsere Parameter begrenzt sind. :)

— Kardinal

3

Vielleicht findet jemand das folgende einfache Beispiel nützlich.

$\theta$ $\theta \in (0,1)$ $(0,1)$ $\theta$

{\begin{cases} θ & Köpfe \\ 1 - θ & Schwänze \end{cases} .

$\begin{cases} \theta & \text{heads} \\ 1-\theta & \text{tails} \end{cases} .$

θ

$\theta$

(0, 1)

$(0,1)$

— mef
quelle