Maximum Likelihood Estimation - Warum wird es verwendet, obwohl es in vielen Fällen voreingenommen ist?

25

Die Maximum-Likelihood-Schätzung führt häufig zu verzerrten Schätzern (z. B. ist ihre Schätzung für die Stichprobenvarianz für die Gauß-Verteilung verzerrt).

Was macht es dann so beliebt? Warum genau wird es so oft verwendet? Was macht es besonders besser als die alternative Methode der Momente?

Außerdem ist mir aufgefallen, dass eine einfache Skalierung des MLE-Schätzers für den Gaußschen unparteiisch macht. Warum ist diese Skalierung kein Standardverfahren? Ich meine - Warum ist es nach der MLE-Berechnung nicht Routine, die notwendige Skalierung zu finden, um den Schätzer vorurteilsfrei zu machen? Die Standardpraxis scheint die einfache Berechnung der MLE-Schätzungen zu sein, außer natürlich für den bekannten Gaußschen Fall, in dem der Skalierungsfaktor bekannt ist.

normal-distribution maximum-likelihood method-of-moments

— Minaj
quelle

11

Es gibt viele, viele Alternativen zu ML, nicht nur die Methode der Momente - die übrigens auch tendenziell voreingenommene Schätzer hervorbringt. Vielleicht möchten Sie stattdessen fragen: "Warum sollte jemand einen unvoreingenommenen Schätzer verwenden?" Ein guter Weg, um dieses Problem zu untersuchen, ist die Suche nach einem Kompromiss zwischen Bias und Varianz .

— whuber

7

Wie bereits erwähnt, gibt es keine inhärente Überlegenheit, wenn man unvoreingenommen ist.

— Xi'an

4

Ich denke, @whuber bedeutet "warum sollte jemand einen voreingenommenen Schätzer verwenden wollen?" Es braucht nicht viel Arbeit, um jemanden davon zu überzeugen, dass ein unvoreingenommener Schätzer ein vernünftiger sein kann.

— Cliff AB

5

In en.wikipedia.org/wiki/… finden Sie ein Beispiel, in dem der einzige unvoreingenommene Schätzer sicherlich nicht derjenige ist, den Sie verwenden möchten.

— Scortchi

4

@Cliff Ich wollte die Frage in ihrer provokanteren, möglicherweise mysteriöseren Form stellen. Dahinter verbirgt sich die Idee, dass es viele Möglichkeiten gibt, die Qualität eines Schätzers zu bewerten, und viele von ihnen haben nichts mit Voreingenommenheit zu tun. Unter diesem Gesichtspunkt ist es naheliegend zu fragen, warum jemand einen unvoreingenommenen Schätzer vorschlagen würde . Weitere Informationen hierzu finden Sie in der Antwort von glen_b.

— whuber

18

Unvoreingenommenheit allein ist nicht unbedingt besonders wichtig.

Abgesehen von einer sehr begrenzten Anzahl von Umständen sind die meisten nützlichen Schätzer voreingenommen, sie werden jedoch erhalten.

Wenn zwei Schätzer die gleiche Varianz haben, kann man leicht ein Argument dafür vorbringen, einen unvoreingenommenen gegenüber einem voreingenommenen zu bevorzugen, aber das ist eine ungewöhnliche Situation (das heißt, Sie mögen vernünftigerweise unvoreingenommen sein, ceteris paribus - aber diese nervenaufreibenden ceteris sind fast nie paribus ).

Noch typischer, wenn Sie Unparteilichkeit wollen, werden Sie eine gewisse Varianz hinzufügen, um sie zu erhalten, und dann würde die Frage sein, warum Sie das tun würden ?

Die Verzerrung gibt an, wie weit der erwartete Wert meines Schätzers im Durchschnitt zu hoch sein wird (negative Verzerrung bedeutet zu niedrig).

Wenn ich über einen kleinen Stichprobenschätzer nachdenke, ist mir das eigentlich egal. Normalerweise interessiert mich mehr, wie weit mein Schätzer in diesem Fall falsch sein wird - mein typischer Abstand von rechts ... so etwas wie ein quadratischer Fehler oder ein mittlerer absoluter Fehler wäre sinnvoller.

Wenn Sie also eine geringe Varianz und eine geringe Verzerrung bevorzugen, ist es sinnvoll , nach einem Schätzer für den minimalen mittleren quadratischen Fehler zu fragen . diese sind sehr selten unvoreingenommen.

Verzerrung und Unparteilichkeit ist ein nützlicher Begriff, dessen Sie sich bewusst sein sollten, aber es ist keine besonders nützliche Eigenschaft, die Sie suchen sollten, es sei denn, Sie vergleichen nur Schätzer mit derselben Varianz.

ML-Schätzer tendieren dazu, eine geringe Varianz zu haben. Sie sind in der Regel kein Mindest-MSE-Wert, haben aber häufig einen niedrigeren MSE-Wert, als wenn Sie sie ändern, um unvoreingenommen zu sein (wenn Sie das überhaupt können).

Als Beispiel betrachten wir Abschätzen Varianz , wenn sie von einer Normalverteilung Abtasten (in der Tat hat die MMSE für die Varianz immer einen größeren Nenner als). $\hat{\sigma}^2_\text{MMSE} = \frac{S^2}{n+1}, \hat{\sigma}^2_\text{MLE} = \frac{S^2}{n}, \hat{\sigma}^2_\text{Unb} = \frac{S^2}{n-1}$ $n-1$

— Glen_b - Setzen Sie Monica wieder ein
quelle

1

+1. Gibt es eine Intuition für (oder vielleicht eine Theorie dahinter) Ihren vorletzten Absatz? Warum neigen ML-Schätzer dazu, eine geringe Varianz zu haben? Warum haben sie oft einen niedrigeren MSE als der unvoreingenommene Schätzer? Ich bin auch erstaunt, den Ausdruck für den MMSE-Varianzschätzer zu sehen. irgendwie habe ich es noch nie erlebt. Warum wird es so selten verwendet? Und hat das etwas mit Schrumpfen zu tun? Es scheint, als sei es von unvoreingenommen zu Null "geschrumpft", aber das verwirrt mich, da ich daran gewöhnt bin, über Schrumpfung nur im multivariaten Kontext (nach James-Stein) nachzudenken.

— Amöbe sagt Reinstate Monica

1

@amoeba-MLEs sind im Allgemeinen Funktionen einer ausreichenden Statistik und zumindest einer asymptotisch unparteiischen Mindestvarianz, sodass Sie erwarten, dass sie in großen Stichproben eine geringe Varianz aufweisen und in der Regel den CRLB im Grenzbereich erreichen. Dies spiegelt sich häufig in kleineren Stichproben wider.

$\:$ MMSE-Schätzer werden im Allgemeinen gegen Null geschrumpft, weil dadurch die Varianz verringert wird (und daher wird durch eine geringe Schrumpfung in der Regel die MSE durch eine geringe Vorspannung gegen 0 verringert).

— Glen_b

{\hat{σ}}_{MMSE}^{2} = \frac{S^{2}}{n + 1}

$\hat{\sigma}^2_\text{MMSE} = \frac{S^2}{n+1}$

Bedeutet das auch, dass der ML-Varianzschätzer kein Minimum-Varianzschätzer ist? Andernfalls wäre der minimale MSE-Schätzer ein gewichteter Durchschnitt (mit positiven Gewichten) des MLE und des unverzerrten Schätzers, aber jetzt liegt er außerhalb dieses Bereichs. Ich könnte dies als separate Frage stellen, wenn Sie der Meinung sind, dass es Sinn macht.

— Richard Hardy

1

Fand eine ganze Ableitung in einem Wikipedia-Artikel über MSE , ich denke, das erklärt alles.

— Richard Hardy

16

MLE liefert den wahrscheinlichsten Wert der Modellparameter in Anbetracht des Modells und der vorliegenden Daten - was ein ziemlich attraktives Konzept ist. Warum sollten Sie Parameterwerte auswählen, die die Wahrschein- lichkeit der beobachteten Daten verringern , wenn Sie die Werte auswählen können, die die Wahrschein- lichkeit der beobachteten Daten über alle Wertemengen hinweg erhöhen? Möchten Sie diese Funktion für Unparteilichkeit opfern? Ich sage nicht, dass die Antwort immer klar ist, aber die Motivation für MLE ist ziemlich stark und intuitiv.

Außerdem ist MLE meines Wissens möglicherweise umfassender anwendbar als die Methode der Momente. MLE scheint bei latenten Variablen natürlicher zu sein; Beispielsweise kann ein Modell mit gleitendem Durchschnitt (MA) oder ein Modell mit generalisierter autoregressiver bedingter Heteroskedastizität (GARCH) direkt von MLE geschätzt werden (dh es reicht aus, eine Wahrscheinlichkeitsfunktion anzugeben und einer Optimierungsroutine zu unterziehen) nicht durch die Methode der Momente (obwohl indirekte Lösungen unter Verwendung der Methode der Momente existieren können).

— Richard Hardy
quelle

4

+1. Natürlich gibt es viele Fälle, in denen Sie die wahrscheinlichste Schätzung nicht wünschen, z. B. Gaußsche Mischungsmodelle (dh unbegrenzte Wahrscheinlichkeit). Im Allgemeinen eine gute Antwort, um die Intuition von MLE's zu unterstützen.

— Cliff AB

3

(+1) Aber ich denke, Sie müssen eine Definition des "wahrscheinlichsten" Parameterwerts als denjenigen hinzufügen, bei dem es wahrscheinlich ist, dass die Daten ziemlich klar sind. Andere intuitiv wünschenswerte Eigenschaften eines Schätzers, die nicht mit seinem Langzeitverhalten bei wiederholter Stichprobe zusammenhängen, können sein, dass er nicht davon abhängt, wie Sie ein Modell parametrisieren, und dass er keine unmöglichen Schätzungen des wahren Parameterwerts liefert.

— Scortchi

6

Denke, es besteht immer noch das Risiko, dass "höchstwahrscheinlich" als "höchstwahrscheinlich" gelesen wird.

— Scortchi

2

@RichardHardy: Sie sind überhaupt nicht gleich. Höchstwahrscheinlich ist die Sonne ausgegangen. Höchstwahrscheinlich nicht.

— user2357112 unterstützt Monica

2

@dsaxton: Statistiker haben die Wahrscheinlichkeit eines Parameterwerts bei gegebenen Daten von der Wahrscheinlichkeit der Daten bei gegebenen Parameterwerten für fast ein Jahrhundert unterschieden - siehe Fisher (1921) "Über den wahrscheinlichen Fehler einer Korrelation", Metron , 1 , S. 3-32 & Pawitan (2013), Aller Wahrscheinlichkeit nach: Statistische Modellierung & Inferenz unter Verwendung von Likelihood - auch wenn die Begriffe im normalen Sprachgebrauch synonym sind, scheint es jetzt etwas spät zu sein, Einwände zu erheben .

— Scortchi

12

Tatsächlich schätzt die Skalierung des Maximum - Likelihood , um unverzerrte Schätzungen zu erhalten , ist ein Standardverfahren in vielen Schätzproblemen. Der Grund dafür ist, dass das mle eine Funktion der ausreichenden Statistik ist. Wenn Sie also nach dem Rao-Blackwell-Theorem einen unverzerrten Schätzer finden, der auf ausreichenden Statistiken basiert, haben Sie einen Schätzer für die minimale Varianz ohne Verzerrung.

Ich weiß, dass Ihre Frage allgemeiner ist, aber ich möchte betonen, dass Schlüsselbegriffe in engem Zusammenhang mit der Wahrscheinlichkeit und den darauf basierenden Schätzungen stehen. Diese Schätzungen sind in endlichen Stichproben möglicherweise nicht unverzerrt, jedoch asymptotisch und darüber hinaus asymptotisch effizient, dh, sie erreichen die Cramer-Rao-Varianzgrenze für unverzerrte Schätzer, was für die MOM-Schätzer möglicherweise nicht immer der Fall ist.

— JohnK
quelle

11

Um Ihre Frage zu beantworten, warum das MLE so beliebt ist, sollten Sie bedenken, dass es zwar voreingenommen sein kann, aber unter Standardbedingungen konsistent ist. Darüber hinaus ist es asymptotisch effizient, sodass der MLE zumindest für große Stichproben wahrscheinlich genauso gut oder besser abschneidet als jeder andere Schätzer, den Sie sich ausgedacht haben. Schließlich wird die MLE durch ein einfaches Rezept gefunden; nimm die Wahrscheinlichkeitsfunktion und maximiere sie. In einigen Fällen kann es schwierig sein, dieses Rezept zu befolgen, bei den meisten Problemen jedoch nicht. Sobald Sie diese Schätzung haben, können wir die asymptotischen Standardfehler außerdem sofort anhand der Fisher-Informationen ableiten. Ohne die Informationen des Fischers ist es oft sehr schwierig, die Fehlergrenzen abzuleiten.

Dies ist der Grund, warum die MLE-Schätzung sehr oft der bevorzugte Schätzer ist (es sei denn, Sie sind Bayesianer). Es ist einfach zu implementieren und wahrscheinlich genauso gut, wenn nicht sogar besser als alles andere, was Sie tun müssen, um mehr zu kochen.

— Cliff AB
quelle

1

Können Sie bitte erläutern, wie es im Vergleich zur Methode der Momente aussieht, da dies ein wichtiger Teil des OP zu sein scheint?

— Antoni Parellada

1

Wie von Whuber hervorgehoben, sind die MOM-Schätzer auch voreingenommen, so dass die MOM-Schätzer keinen Vorteil in Bezug auf "Unparteilichkeit" haben. Auch wenn die MOM- und MLE-Schätzer nicht übereinstimmen, neigt die MLE dazu, eine niedrigere MSE zu haben. Bei dieser Antwort geht es jedoch wirklich darum, warum MLEs eher die Standardeinstellung sind als ein direkter Vergleich mit anderen Methoden.

— Cliff AB

2

@AntoniParellada Es gibt einen interessanten Thread im Vergleich von MLE und MoM, stats.stackexchange.com/q/80380/28746

— Alecos Papadopoulos

3

Ich würde hinzufügen, dass wir manchmal (oft) einen MLE-Schätzer verwenden, weil wir das haben, auch wenn es in einer idealen Welt nicht das ist, was wir wollen. (Ich betrachte Statistiken oft als Engineering, bei dem wir das verwenden, was wir haben und nicht das, was wir wollen.) In vielen Fällen ist es einfach, das MLE zu definieren und zu lösen und dann einen Wert mithilfe eines iterativen Ansatzes zu erhalten. Für einen bestimmten Parameter in einer bestimmten Situation gibt es möglicherweise einen besseren Schätzer (für einen bestimmten Wert von "besser"), aber um diesen zu finden, ist es möglicherweise sehr klug. und wenn Sie fertig sind, klug zu sein, haben Sie immer noch nur den besseren Schätzer für dieses eine bestimmte Problem.

— eac2222
quelle

1

Was ist aus Neugier ein Beispiel dafür, was Sie (in der idealen Welt) wollen würden?

— Glen_b -Reinstate Monica

2

@ Glen_b: Keine Ahnung. Voreingenommen, niedrigste Varianz, einfach in geschlossener Form zu berechnen? Wenn Sie zuerst die Schätzer für die Regression der kleinsten Quadrate lernen, scheint das Leben einfacher zu sein, als es sich herausstellt.

— eac2222