Der ML-Schätzer ergibt den Wert für den Parameter, der am wahrscheinlichsten im Datensatz vorkommt.
Unter den gegebenen Annahmen ist der ML-Schätzer der Wert des Parameters, der die beste Chance hat, den Datensatz zu erzeugen.
Ich kann einen voreingenommenen ML-Schätzer nicht intuitiv in dem Sinne verstehen, dass "Wie kann der wahrscheinlichste Wert für den Parameter den tatsächlichen Wert des Parameters mit einer Tendenz zu einem falschen Wert vorhersagen?"
Bei der Verzerrung geht es um Erwartungen an Stichprobenverteilungen. "Am wahrscheinlichsten, um die Daten zu produzieren" geht es nicht um Erwartungen an Stichprobenverteilungen. Warum sollte von ihnen erwartet werden, dass sie zusammen gehen?
Auf welcher Grundlage stimmen sie überraschenderweise nicht unbedingt überein?
Ich würde vorschlagen, Sie betrachten einige einfache Fälle von MLE und überlegen, wie der Unterschied in diesen bestimmten Fällen entsteht.
Betrachten Sie als Beispiel Beobachtungen an einer Uniform an . Die größte Beobachtung ist (notwendigerweise) nicht größer als der Parameter, daher kann der Parameter nur Werte annehmen, die mindestens so groß sind wie die größte Beobachtung.( 0 , θ )
Wenn Sie die Wahrscheinlichkeit für , ist sie (offensichtlich) umso größer, je näher θ an der größten Beobachtung liegt. So ist es bei der größten Beobachtung maximiert ; Das ist eindeutig die Schätzung für θ , die die Chance maximiert, die Probe zu erhalten, die Sie erhalten haben:θθθ
θθ
U( 0 , θ )nn + 1θθ^= n + 1nX( n )X( n )
Dies liegt rechts von der MLE und hat daher eine geringere Wahrscheinlichkeit.