Intuitives Denken hinter voreingenommenen Maximum-Likelihood-Schätzern


25

Ich bin verwirrt über voreingenommene Maximum-Likelihood- Schätzer (ML). Die Mathematik des gesamten Konzepts ist mir ziemlich klar, aber ich kann die intuitive Argumentation dahinter nicht verstehen.

Bei einem bestimmten Datensatz, der Stichproben aus einer Verteilung enthält, die selbst eine Funktion eines Parameters ist, den wir schätzen möchten, ergibt der ML-Schätzer den Wert für den Parameter, der am wahrscheinlichsten den Datensatz erzeugt.

Ich kann einen voreingenommenen ML-Schätzer nicht in dem Sinne intuitiv verstehen, dass: Wie kann der wahrscheinlichste Wert für den Parameter den tatsächlichen Wert des Parameters mit einer Tendenz zu einem falschen Wert vorhersagen?



Ich denke, der Fokus auf Voreingenommenheit kann diese Frage von dem vorgeschlagenen Duplikat unterscheiden, obwohl sie sicherlich sehr eng miteinander verbunden sind.
Silverfish

Antworten:


14

Der ML-Schätzer ergibt den Wert für den Parameter, der am wahrscheinlichsten im Datensatz vorkommt.

Unter den gegebenen Annahmen ist der ML-Schätzer der Wert des Parameters, der die beste Chance hat, den Datensatz zu erzeugen.

Ich kann einen voreingenommenen ML-Schätzer nicht intuitiv in dem Sinne verstehen, dass "Wie kann der wahrscheinlichste Wert für den Parameter den tatsächlichen Wert des Parameters mit einer Tendenz zu einem falschen Wert vorhersagen?"

Bei der Verzerrung geht es um Erwartungen an Stichprobenverteilungen. "Am wahrscheinlichsten, um die Daten zu produzieren" geht es nicht um Erwartungen an Stichprobenverteilungen. Warum sollte von ihnen erwartet werden, dass sie zusammen gehen?

Auf welcher Grundlage stimmen sie überraschenderweise nicht unbedingt überein?

Ich würde vorschlagen, Sie betrachten einige einfache Fälle von MLE und überlegen, wie der Unterschied in diesen bestimmten Fällen entsteht.

Betrachten Sie als Beispiel Beobachtungen an einer Uniform an . Die größte Beobachtung ist (notwendigerweise) nicht größer als der Parameter, daher kann der Parameter nur Werte annehmen, die mindestens so groß sind wie die größte Beobachtung.(0,θ)

Wenn Sie die Wahrscheinlichkeit für , ist sie (offensichtlich) umso größer, je näher θ an der größten Beobachtung liegt. So ist es bei der größten Beobachtung maximiert ; Das ist eindeutig die Schätzung für θ , die die Chance maximiert, die Probe zu erhalten, die Sie erhalten haben:θθθ

Bildbeschreibung hier eingeben

θθ

U(0,θ)nn+1θθ^=n+1nX(n)X(n)

Dies liegt rechts von der MLE und hat daher eine geringere Wahrscheinlichkeit.


Danke für deine Antwort. Über den ersten Teil habe ich mich falsch ausgedrückt. Im Grunde habe ich gemeint, was du gesagt hast. Kann ich auf der Grundlage Ihrer Antwort auf den zweiten Teil zu dem Schluss kommen, dass der ML-Schätzer bei einem anderen Datensatz aus derselben Verteilung zu einer anderen Verzerrung führt? Da Sie sagen, dass der ML-Schätzer derjenige ist, der "am wahrscheinlichsten" die Daten erzeugt. Wenn wir die Daten ändern, wird sie höchstwahrscheinlich von einem anderen Schätzer erstellt. Ist das korrekt?
SSAH

Der Schätzer ändert sich nicht, wenn sich die Form der Bevölkerungsverteilung nicht ändert. Eine andere Schätzung wird mit einer anderen Stichprobe erstellt, und der Grad der Verzerrung ist im Allgemeinen unterschiedlich. Die Verzerrung hängt in der Regel von der Stichprobengröße ab, auch wenn die Grundgesamtheit gleich ist. ... (ctd)
Glen_b -Reinstate Monica

(ctd) ... mnθ

Gute Verwendung des kanonischen Beispiels, um den Unterschied zwischen unverzerrten und ML-Schätzern zu erkennen.
JWG

6

βMLEβββMLE

MLE ist nur asymptotisch unverzerrt, und häufig können Sie den Schätzer so einstellen, dass er sich in endlichen Stichproben besser verhält. Beispielsweise ist die MLE der Varianz einer Zufallsvariablen ein Beispiel, bei dem mit multipliziert wirdNN-1


Entschuldigung für den Fehler im ersten Teil. Ich habe es bearbeitet und korrigiert. Aber über das, was Sie über die MLE gesagt haben, warum sollte sie in dem nicht-asymptotischen Fall überhaupt voreingenommen sein?
SSAH

2
"Besser" hängt davon ab, was Sie betrachten; Die Besselsche Korrektur macht es unvoreingenommen, aber die Unparteilichkeit ist nicht automatisch "besser" (die MSE ist zum Beispiel schlechter; warum sollte ich eine Unparteilichkeit einer kleineren MSE vorziehen?). Man könnte behaupten, dass Unvoreingenommenheit besser ist, ceteris paribus , aber leider ist ceteris nicht paribus .
Glen_b -Reinstate Monica

Mein Verständnis war, dass der unverzerrte Schätzer durch die Beziehung zwischen der MLE und der Cramer-Rao-Untergrenze als am besten unverzerrt gezeigt werden kann.
Dimitriy V. Masterov

@ssah Mir wurde gesagt, dass dies daran liegt, dass wir den Stichprobenmittelwert anstelle des wahren Mittelwerts in der Formel verwenden. Um ehrlich zu sein, ich habe diese Erklärung nie wirklich als besonders intuitiv empfunden, denn wenn der MLE-Schätzer des Mittelwerts unvoreingenommen ist, warum sollte dies schief gehen? Normalerweise lege ich meine Zweifel bei einer Simulation zur Ruhe.
Dimitriy V. Masterov

5

Hier ist meine Intuition.

Die Abweichung ist ein Maß für die Genauigkeit , aber es gibt auch einen Begriff für die Präzision .

Bildbeschreibung hier eingeben

In einer idealen Welt würden wir die Schätzung erhalten, die sowohl präzise als auch genau ist, dh immer ins Schwarze trifft. Leider müssen wir in unserer unvollkommenen Welt Genauigkeit und Präzision in Einklang bringen. Manchmal haben wir das Gefühl, wir könnten ein bisschen Genauigkeit geben, um präziser zu werden: Wir müssen ständig Kompromisse eingehen. Daher bedeutet die Tatsache, dass ein Schätzer voreingenommen ist, nicht, dass es schlecht ist: Es könnte sein, dass es genauer ist.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.