Wann funktioniert Maximum Likelihood und wann nicht?

Ich bin verwirrt über die Maximum-Likelihood-Methode im Vergleich zB zur Berechnung des arithmetischen Mittels.

Wann und warum liefert die maximale Wahrscheinlichkeit "bessere" Schätzungen als z. B. das arithmetische Mittel? Wie ist das überprüfbar?

maximum-likelihood

— mavavilj
quelle

+1 Dies ist eine gute Frage an jedes statistische Verfahren.

— Whuber

Ich denke nicht, dass diese Frage zu unklar ist. Das OP ist sicherlich unklar, aber deshalb fragen sie. Fragen bezüglich der Natur von MLE & arithmetischen Mitteln sollten mit einer guten Antwort geklärt werden.

— gung - Wiedereinsetzung von Monica

Was meinst du mit "besser"? Und warum sollte das arithmetische Mittel ein guter Schätzer für einen beliebigen Parameter sein?

— Xi'an

Die Frage kann nicht beantwortet werden, ohne zuerst eine Definition von "besser" festzulegen, dh eine Verlustfunktion oder ein anderes Kriterium, das den Vergleich von Schätzern ermöglicht. Zum Beispiel ist der MLE effizient, was bedeutet, dass es keinen Schätzer mit einer geringeren asymptotischen Varianz gibt (unter bestimmten Regularitätsbedingungen). Und zum Beispiel kann der MLE unzulässig sein, wie der Stein-Effekt zeigt , was bedeutet, dass Schätzer mit einem geringeren quadratischen Risiko für alle Werte des Parameters unter gewissen Einschränkungen hinsichtlich der Verteilung der Stichprobe und der Dimension des Parameters existieren.

— Xi'an

@ Xi'an Das klingt nach der Basis einer Antwort.

— Whuber

Antworten:

Während das arithmetische Mittel als "natürlicher" Schätzer klingt, könnte man sich fragen, warum es dem MLE vorzuziehen ist! Die einzige sichere Eigenschaft, die mit dem arithmetischen Mittel assoziiert ist, ist, dass es ein unverzerrter Schätzer von wenn diese Erwartung definiert ist. (Stellen Sie sich die Cauchy-Verteilung als Gegenbeispiel vor.) Die Cauchy-Verteilung besitzt in der Tat unter Gleichmäßigkeitsbedingungen eine breite Palette von Eigenschaften bezüglich der Wahrscheinlichkeitsfunktion. Aus der Wikipedia-Seite auszuleihen ist die MLE $\bar{x}$ $\mathbb{E}[X]$

konsistent
asymptotisch normal
effizient, indem es die minimale asymptotische Varianz erreicht
Invariante unter bijektiven Transformationen
innerhalb des Parametersatzes auch für eingeschränkte Parametersätze

Im Vergleich zum arithmetischen Mittel sind die meisten dieser Eigenschaften auch für ausreichend regelmäßige Verteilungen erfüllt. Ausnahme 4 und 5. Bei Exponentialfamilien sind der MLE und der arithmetische Mittelwert für die Schätzung des Parameters in der Mittelwertparametrisierung identisch (jedoch nicht für andere Parametrisierungen). Und die MLE existiert für eine Stichprobe aus der Cauchy-Distribution.

Wenn Sie sich jedoch Eigenschaften der endlichen Probenoptimalität wie Minimaxität oder Zulässigkeit zuwenden, kann es vorkommen, dass die MLE weder Minimaxität noch Zulässigkeit aufweist. Zum Beispiel zeigt der Stein-Effekt , dass es Schätzer mit einem geringeren quadratischen Risiko für alle Werte des Parameters gibt, unter gewissen Einschränkungen hinsichtlich der Verteilung der Stichprobe und der Dimension des Parameters. Dies ist der Fall, wenn und . $x\sim\mathcal{N}_p(\theta,I_p)$ $p\ge 3$

— Xi'an
quelle

Zur Verdeutlichung: Die 5 aufgeführten Immobilien stehen alle im Kontext eines angenommenen Modells für die Bevölkerung.

— Wahrscheinlichkeitslogik

@CagdasOzgenc: ja die Herrschaft asymptotisch vernachlässigbar , sondern gilt für alle

..! Der Bereich der James-Stein-Minimax-Schätzer schrumpft jedoch mit

da die Schrumpfungskonstante zwischen

und

wobei

die Dimension und

die Varianz einer Beobachtungskomponente ist. Von asymptotischer Minimaxität habe ich allerdings noch nie gehört.

n^{'} s

$n's$

n

$n$

0

$0$

2 (p - 2) σ^{2} / n

$2(p-2)\sigma^2/n$

p

$p$

σ^{2}

$\sigma^2$

— Xi'an

Wir interpretieren "Berechnung des arithmetischen Mittels" als Schätzung unter Verwendung der Methode der Momente (Method of Moments, MoM). Ich glaube, das ist der ursprünglichen Frage treu, da die Methode theoretische Durchschnittswerte durch Stichproben ersetzt. Es wird auch auf die Bedenken von @ Xi'an bezüglich eines beliebigen Parameters (aus einem beliebigen Modell) eingegangen.

Wenn Sie immer noch bei mir sind, sind Beispiele, bei denen die Methode der Momente in kleinen Stichproben die maximale Wahrscheinlichkeit übertrifft, eine gute Wahl. Der Fragetext weist darauf hin, dass "Maximum-Likelihood-Schätzer (MLE) asymptotisch effizient sind; wir sehen das praktische Ergebnis darin, dass sie häufig besser abschätzen als Momentschätzmethoden (MoM) (wenn sie sich unterscheiden)", und sucht nach bestimmten Fällen, in denen MoM-Schätzer einen kleineren mittleren quadratischen Fehler erzielen als sein MLE-Gegenstück. Einige Beispiele sind im Zusammenhang mit der linearen Regression, der Zwei-Parameter-Inverse-Gauß-Verteilung und einer asymmetrischen exponentiellen Leistungsverteilung zu finden.

Diese Vorstellung von "asymptotischer Effizienz" bedeutet, dass Maximum-Likelihood-Schätzer die Daten wahrscheinlich fast vollständig nutzen (um den fraglichen Parameter zu schätzen), eine Garantie, die Sie mit der Methode der Momente im Allgemeinen nicht erhalten. Während die maximale Wahrscheinlichkeit nicht immer "besser" ist als das Arbeiten mit Durchschnittswerten, macht diese Effizienz-Eigenschaft (wenn auch nur im Grenzbereich) sie für die meisten Frequentisten zu einer Anlaufstelle. Natürlich könnte der Contrarianer argumentieren, dass mit der zunehmenden Größe von Datensätzen, wenn Sie mit einer Funktion von Durchschnittswerten auf das richtige Ziel zeigen, dies auch der Fall ist.

— Ben Ogorek
quelle

Es gibt mehrere berühmte Beispiele, bei denen die maximale Wahrscheinlichkeit (Maximum Likelihood, ML) nicht die beste Lösung darstellt. Siehe Lucien Le Cams Arbeit von 1990: "Maximum Likelihood: eine Einführung" [1] , die aus seinen eingeladenen Vorlesungen an der Univ. von Maryland.

Das Beispiel, das mir am besten gefällt, weil es so einfach ist, ist folgendes:

$X_j$ $Y_j$ $j = 1,...,n$ $X_j\sim N(\mu_j,\sigma^2)$ $Y_j\sim N(\mu_j,\sigma^2)$ $j$ $X_j$ $Y_j$ $j$ $\sigma^2$

Ich werde den Spaß nicht ruinieren, indem ich Ihnen die Antwort gebe, aber (keine Überraschung) es gibt zwei Möglichkeiten, dies mit ML zu lösen, und sie geben unterschiedliche Lösungen. Eines ist das "arithmetische Mittel" der quadratischen Residuen (wie man erwarten würde), und das andere ist die Hälfte des arithmetischen Mittels. Die Antwort finden Sie hier auf meiner Github-Seite.

— idnavid
quelle