Wenn Sie sich ausreichend weit von der Normalität entfernen, können alle linearen Schätzer beliebig schlecht sein .
Zu wissen, dass Sie das Beste aus einem schlechten Los herausholen können (dh die beste lineare unverzerrte Schätzung), ist kein großer Trost.
Wenn Sie ein geeignetes Verteilungsmodell angeben können ( ja, da ist das Problem ), hat die Maximierung der Wahrscheinlichkeit sowohl eine direkte intuitive Anziehungskraft - als sie die Chance "maximiert", die Probe zu sehen, die Sie tatsächlich gesehen haben (mit einer geeigneten Verfeinerung dessen, was wir haben bedeutet damit für den kontinuierlichen Fall) und eine Reihe sehr ordentlicher Eigenschaften, die sowohl theoretisch als auch praktisch nützlich sind (z. B. Beziehung zur Cramer-Rao-Untergrenze, Äquivarianz unter Transformation, Beziehung zu Likelihood-Ratio-Tests usw.). Dies motiviert zum Beispiel die M-Schätzung.
Selbst wenn Sie kein Modell angeben können, ist es möglich, ein Modell zu erstellen, für das ML gegenüber Kontamination durch grobe Fehler in der bedingten Verteilung der Antwort robust ist - wobei es beim Gaußschen eine recht gute Effizienz beibehält, aber das potenziell katastrophale vermeidet Auswirkungen beliebig großer Ausreißer.
[Dies ist nicht die einzige Überlegung bei der Regression, da beispielsweise auch die Auswirkungen einflussreicher Ausreißer robust sein müssen, aber es ist ein guter erster Schritt]
Betrachten Sie diesen Prozess der Steigungsschätzer für die Regression, um das Problem selbst mit dem besten linearen Schätzer zu demonstrieren. In diesem Fall gibt es 100 Beobachtungen in jeder Probe, x ist 0/1, die wahre Steigung ist12 und Fehler sind Standard Cauchy. Die Simulation verwendet 1000 Sätze simulierter Daten und berechnet die Schätzung der kleinsten Quadrate der Steigung ("LS") sowie einige nichtlineare Schätzer, die in dieser Situation verwendet werden könnten (beide sind im Cauchy nicht vollständig effizient, aber beide sind vernünftig ) - einer ist ein L1-Schätzer der Linie ("L1") und der zweite berechnet eine einfache L-Schätzung der Position bei den beiden Werten von x und passt eine Linie an, die sie verbindet ("LE").
Der obere Teil des Diagramms ist ein Boxplot dieser tausend Steigungsschätzungen für jede Simulation. Der untere Teil ist das mittlere Prozent (ungefähr ist es mit einem schwachen orange-grauen Kästchen im oberen Diagramm markiert) dieses Bildes "gesprengt", damit wir mehr Details sehen können. Wie wir sehen, reichen die Steigungen der kleinsten Quadrate von -771 bis 1224 und die unteren und oberen Quartile sind -1,24 und 2,46. Der Fehler in der LS-Steigung betrug mehr als 10 mehr als 10% der Zeit. Die beiden nichtlinearen Schätzer schneiden viel besser ab - sie arbeiten ziemlich ähnlich, keine der 1000 Steigungsschätzungen ist in beiden Fällen mehr als 0,84 von der tatsächlichen Steigung entfernt, und der mittlere absolute Fehler in der Steigung liegt im Ballpark von jeweils 0,14 (vs 1,86 für den Schätzer der kleinsten Quadrate). Die LS-Steigung hat in diesem Fall einen 223- und 232-fachen RMSE-Wert der L1- und LE-Schätzer.
Es gibt Dutzende anderer vernünftiger Schätzer, die hier verwendet worden sein könnten; Dies war lediglich eine schnelle Berechnung, um zu veranschaulichen, dass selbst die besten / effizientesten linearen Schätzer möglicherweise nicht nützlich sind. Ein ML-Schätzer der Steigung würde eine bessere Leistung (im Sinne von MSE) erzielen als die beiden hier verwendeten robusten Schätzer, aber in der Praxis möchten Sie etwas mit einer gewissen Robustheit gegenüber einflussreichen Punkten.