Warum führt die Minimierung der MAE zur Vorhersage des Medians und nicht des Mittelwerts?

19

Aus dem Lehrbuch „ Forecasting: Principles and Practice“ von Rob J. Hyndman und George Athanasopoulos , insbesondere der Abschnitt zur Genauigkeitsmessung :

Eine Prognosemethode, die den MAE minimiert, führt zu Prognosen des Medians, während die Minimierung des RMSE zu Prognosen des Mittelwerts führt

Kann jemand intuitiv erklären, warum die Minimierung der MAE zur Vorhersage des Medians und nicht des Mittelwerts führt? Und was bedeutet das in der Praxis?

Ich habe einen Kunden gefragt: "Was ist für Sie wichtiger, um mittlere Vorhersagen genauer zu machen oder sehr ungenaue Vorhersagen zu vermeiden?". Er sagte, um mittlere Vorhersagen genauer zu machen, habe sie eine höhere Priorität. Sollte ich in diesem Fall MAE oder RMSE verwenden? Bevor ich dieses Zitat las, glaubte ich, dass MAE für einen solchen Zustand besser ist. Und jetzt bezweifle ich.

— Brans Ds
quelle

17

$F$

Die Frage ist nun: Warum verwendet man den Median von $F$ die erwarteten minimiert absolute Fehler entdeckt ?

Hierzu empfehle ich häufig "Visualisierung des Medians als Minimum-Deviation-Location" von Hanley et al. (2001, The American Statistician ) . Sie haben zusammen mit ihrem Paper ein kleines Applet erstellt , was mit modernen Browsern leider nicht mehr funktioniert, aber wir können der Logik im Paper folgen.

Angenommen, Sie stehen vor einer Reihe von Aufzügen. Sie können gleich beabstandet angeordnet sein oder einige Abstände zwischen Aufzugstüren können größer sein als andere (z. B. können einige Aufzüge außer Betrieb sein). Vor dem Aufzug soll man stehen , um den minimalen erwarteten Spaziergang haben , wenn einer der Aufzüge nicht ankommen? Beachten Sie, dass dieser erwartete Weg die Rolle des erwarteten absoluten Fehlers spielt!

Angenommen, Sie haben drei Aufzüge A, B und C.

Wenn Sie vor A warten, müssen Sie möglicherweise von A nach B gehen (wenn B ankommt) oder von A nach C (wenn C ankommt) - vorbei an B!
Wenn Sie vor B warten, müssen Sie von B nach A (wenn A ankommt) oder von B nach C (wenn C ankommt) gehen.
Wenn Sie vor C warten, müssen Sie von C nach A gehen (wenn A ankommt) - vorbei an B - oder von C nach B (wenn B ankommt).

Beachten Sie, dass es von der ersten und letzten Warteposition eine Entfernung gibt - AB in der ersten, BC in der letzten Position -, die Sie in mehreren Fällen, in denen Aufzüge ankommen, zurücklegen müssen . Daher ist es am besten, direkt vor dem mittleren Aufzug zu stehen - unabhängig davon, wie die drei Aufzüge angeordnet sind.

Hier ist Abbildung 1 von Hanley et al .:

Dies lässt sich leicht auf mehr als drei Aufzüge verallgemeinern. Oder zu Aufzügen mit unterschiedlichen Chancen, zuerst anzukommen. Oder zu unendlich vielen Aufzügen. Wir können diese Logik also auf alle diskreten Verteilungen anwenden und dann die Grenze überschreiten, um zu kontinuierlichen Verteilungen zu gelangen.

Um zur Prognose zurückzukehren, müssen Sie berücksichtigen, dass für einen bestimmten zukünftigen Zeitbereich eine (normalerweise implizite) Dichtevorhersage oder prädiktive Verteilung vorliegt, die wir mit einer einzelnen Zahlenpunktvorhersage zusammenfassen. Das obige Argument zeigt, warum der Median Ihrer prädiktiven Dichte ist $\hat{F}$ ist die Punktvorhersage, die den erwarteten absoluten Fehler oder MAE minimiert. (Genauer gesagt, jeder Median kann dies tun, da er möglicherweise nicht eindeutig definiert ist. Im Aufzugsbeispiel entspricht dies einer geraden Anzahl von Aufzügen.)

Und natürlich kann der Median ganz anders sein als die Erwartung, wenn $\hat{F}$ ist asymmetrisch. Ein wichtiges Beispiel sind Daten mit geringem Datenvolumen , insbesondere intermittierende Zeitreihen . In der Tat, wenn Sie eine 50% ige oder höhere Chance haben, keine Verkäufe zu tätigen, z $\lambda\leq \ln 2$ Dann minimieren Sie Ihren erwarteten absoluten Fehler, indem Sie eine flache Null prognostizieren - was selbst für stark intermittierende Zeitreihen wenig intuitiv ist. Ich habe eine kleine Abhandlung darüber geschrieben ( Kolassa, 2016, International Journal of Forecasting ).

Wenn Sie also den Verdacht haben, dass Ihre prädiktive Verteilung asymmetrisch ist (oder sein sollte), wie in den beiden oben genannten Fällen, dann verwenden Sie rmse , wenn Sie unvoreingenommene Erwartungsprognosen erhalten möchten . Wenn die Verteilung als symmetrisch angenommen werden kann (normalerweise für großvolumige Serien), stimmen der Median und der Mittelwert überein, und die Verwendung der Mae führt Sie auch zu unvoreingenommenen Vorhersagen - und die MAE ist leichter zu verstehen.

Ebenso kann das Minimieren der Karte zu verzerrten Vorhersagen führen, selbst bei symmetrischen Verteilungen. Diese frühere Antwort von mir enthält ein simuliertes Beispiel mit einer asymmetrisch verteilten, streng positiven (lognormal verteilten) Reihe, die mithilfe von drei verschiedenen Punktvorhersagen sinnvoll punktprognostiziert werden kann, je nachdem, ob die MSE, die MAE oder die MAPE minimiert werden soll.

— S. Kolassa - Setzen Sie Monica wieder ein
quelle

9

Die Antwort von Stephan gibt Ihnen eine intuitive Erklärung, warum die Minimierung des absoluten Durchschnittsfehlers den Median ergibt. Beantworten Sie nun, welche MSE, MAE oder MAPE verwendet werden soll:

Die MAE ist robust , das heißt, sie ist weniger empfindlich gegenüber Ausreißern. Stellen Sie sich eine Serie mit einem Fehler vor, der eine Million Mal größer ist, als er sein sollte. In der MSE wird die Prognose millionenfach pro N abgerufen (wobei N die Anzahl der Punkte ist), während die MAE nur für 1 Einheit abgerufen wird.

Unglücklicherweise, die MAE nicht eindeutig und kann daher eine Art schizophrenen Verhaltens aufweisen.

Daher empfehle ich, zuerst eine MSE zu erstellen und dann die MSE-Parameter zu verwenden, um die MAE-Regression zu starten.

Vergleichen Sie auf jeden Fall beide Prognosen: Wenn sie sehr unterschiedlich sind, riechen Ihre Daten etwas.

— AlainD
quelle