Warum sollte ein bestimmtes Maß für den Prognosefehler (z. B. MAD) im Gegensatz zu einem anderen (z. B. MSE) verwendet werden?


15

MAD = Mittlere absolute Abweichung MSE = Mittlerer quadratischer Fehler

Ich habe Vorschläge von verschiedenen Stellen gesehen, dass MSE trotz einiger unerwünschter Eigenschaften verwendet wird (z. B. http://www.stat.nus.edu.sg/~staxyc/T12.pdf , das auf Seite 8 heißt. "Es wird allgemein angenommen, dass MAD ist ein besseres Kriterium als MSE. Mathematisch ist MSE jedoch praktischer als MAD. ")

Gibt es mehr als das? Gibt es ein Dokument, das gründlich analysiert, in welchen Situationen verschiedene Methoden zur Messung von Prognosefehlern mehr oder weniger geeignet sind? Meine Google-Suche hat nichts ergeben.

Eine ähnliche Frage wurde unter /programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sde gestellt , und der Benutzer wurde dazu aufgefordert poste auf stats.stackexchange.com, aber ich glaube nicht, dass sie es jemals getan haben.


2
MAD ist eher die mediane absolute Abweichung als der Mittelwert, nicht wahr?
Brian D

@BrianD: In der breiteren Statistik-Community haben Sie recht. In der engeren Prognosegemeinschaft ist "MAD" immer die "mittlere absolute Abweichung", AKA MAE .
S. Kolassa - Wiedereinsetzung von Monica

Antworten:


23

Um zu entscheiden, welches Punktprognosefehlermaß verwendet werden soll, müssen wir einen Schritt zurückgehen. Beachten Sie, dass wir das zukünftige Ergebnis nicht genau kennen und es auch niemals wissen werden. Das zukünftige Ergebnis folgt also einer Wahrscheinlichkeitsverteilung . Einige Prognosemethoden geben eine solche vollständige Verteilung explizit aus, andere nicht - sie ist jedoch immer vorhanden, wenn auch nur implizit.

Jetzt wollen wir ein gutes Fehlermaß für eine Punktvorhersage haben . Eine solche Punktprognose ist unser Versuch, das, was wir über die zukünftige Verteilung (dh die prädiktive Verteilung) zum Zeitpunkt wissen, unter Verwendung einer einzigen Zahl, einem sogenannten Funktional der zukünftigen Dichte, zusammenzufassen. Das Fehlermaß ist dann eine Möglichkeit, die Qualität dieser einzelnen Zahlenzusammenfassung zu bewerten.Ftt

Wählen Sie daher ein Fehlermaß, das "gute" Zusammenfassungen (unbekannter, möglicherweise prognostizierter, möglicherweise aber nur impliziter) zukünftiger Dichten liefert.

Die Herausforderung besteht darin, dass unterschiedliche Fehlermaßnahmen durch unterschiedliche Funktionen minimiert werden. Der erwartete MSE wird durch den erwarteten Wert der zukünftigen Ausschüttung minimiert . Die erwartete MAD wird durch den Median der zukünftigen Verteilung minimiert . Wenn Sie also Ihre Prognosen kalibrieren, um die MAE zu minimieren, ist Ihre Punktprognose der zukünftige Median und nicht der zukünftige Erwartungswert, und Ihre Prognosen sind voreingenommen, wenn Ihre zukünftige Verteilung nicht symmetrisch ist.

Dies ist am relevantesten für Zähldaten, die normalerweise schief sind. In extremen Fällen (z. B. bei Poisson-Umsätzen mit einem Mittelwert unter ) ist Ihr MAE für eine Prognose von Null niedrig. Sehen Sie hier oder hier oder hier für Details.Log20,69

Ich gebe einige weitere Informationen und eine Illustration in Was sind die Mängel des Mean Absolute Percentage Error (MAPE)? Dieser Thread berücksichtigt die , aber auch andere Fehlermaßnahmen und enthält Links zu anderen verwandten Threads.


Welches Fehlermaß tatsächlich verwendet wird, hängt letztendlich von Ihren Prognosekosten ab, dh von der Art des Fehlers, der am schmerzhaftesten ist. Ohne die tatsächlichen Auswirkungen von Prognosefehlern zu betrachten, ist jede Diskussion über "bessere Kriterien" im Grunde bedeutungslos.

Vor einigen Jahren waren Messungen der Prognosegenauigkeit ein großes Thema in der Prognosegemeinschaft, und sie tauchen immer noch ab und zu auf. Ein sehr guter Artikel ist Hyndman & Koehler "Ein weiterer Blick auf Messungen der Prognosegenauigkeit" (2006).

Schließlich besteht eine Alternative darin, die vollständigen Vorhersagedichten zu berechnen und diese unter Verwendung geeigneter bewerten .


Danke für die Antwort und den Link. Ich war mit dem Begriff "Cost of Forecast Error" nicht vertraut. Es scheint sich um Situationen zu handeln, in denen (z. B.) ein Unternehmen prognostiziert, wie viele Widgets es verkaufen wird, und der Schmerz, den es durch Überschätzung erleidet, möglicherweise doppelt so hoch ist wie der Schmerz, den es durch Unterschätzung erleidet. Ich denke jedoch hauptsächlich an einen Kontext, in dem Laien Prognosen erstellen, ohne dass die Kosten für Prognosefehler offensichtlich werden (z. B. "Wie viele Tweets werden Bill Gates in den nächsten 5 Monaten erstellen?"). Ist in einer solchen Situation meine Wahl des Fehlermaßes willkürlich?
user1205901 - Monica

3
Die Kosten von Prognosefehlern wurden in der Fachzeitschrift Foresight diskutiert : forecasters.org/foresight Sehr zu empfehlen! (Vollständige Offenlegung: Ich bin Associate Editor.) Ich stimme zu, dass die CoFE in Ihrem Beispiel nicht ohne weiteres erkennbar ist, aber dann würde ich mich fragen, wie viel Aufwand Sie wirklich für die Optimierung Ihrer Fehlermaßnahme
aufwenden

4

Die Vorteile der Verwendung von MAE anstelle von MSE werden in Davydenko und Fildes (2016) erläutert , siehe Abschnitt 3.1:

... Einige Autoren (zB Zellner, 1986) argumentieren, dass das Kriterium, nach dem wir Prognosen auswerten, dem Kriterium entsprechen sollte, nach dem wir Prognosen optimieren. Mit anderen Worten, wenn wir Schätzungen unter Verwendung einer bestimmten Verlustfunktion optimieren, müssen wir dieselbe Verlustfunktion für die empirische Bewertung verwenden, um herauszufinden, welches Modell besser ist.

Das Anpassen eines statistischen Modells liefert normalerweise optimale Vorhersagen bei quadratischem Verlust. Dies geschieht beispielsweise, wenn wir eine lineare Regression anpassen. Wenn unsere Dichtevorhersage aus der statistischen Modellierung symmetrisch ist, sind die unter quadratischem Verlust optimalen Vorhersagen auch unter linearem Verlust optimal. Wenn wir jedoch die Varianz durch logarithmische Transformationen stabilisieren und dann Prognosen durch Exponentiation zurücktransformieren, erhalten wir Prognosen, die nur unter linearem Verlust optimal sind. Wenn wir einen anderen Verlust verwenden, müssen wir zuerst die Dichtevorhersage unter Verwendung eines statistischen Modells erhalten und dann unsere Schätzung angesichts unserer spezifischen Verlustfunktion anpassen (siehe Beispiele dafür in Goodwin, 2000).

Nehmen wir an, wir möchten zwei Methoden empirisch vergleichen und herausfinden, welche Methode im Hinblick auf einen symmetrischen linearen Verlust besser ist (da diese Art von Verlust üblicherweise bei der Modellierung verwendet wird). Wenn wir nur eine Zeitreihe haben, scheint es natürlich, einen mittleren absoluten Fehler (MAE) zu verwenden. MAE ist auch attraktiv, da es einfach zu verstehen und zu berechnen ist (Hyndman, 2006) ...

Verweise

Davydenko, A. & Fildes, R. (2016). Prognosefehlermaßnahmen: Kritische Überprüfung und praktische Empfehlungen. In Business Forecasting: Praktische Probleme und Lösungen. John Wiley & Söhne


Könnten Sie die Zeitung vollständig zitieren und nicht nur "Davydenko und Fildes, 2016"?
Silverfish

Wir möchten, dass unsere Antworten eigenständig sind, damit sie nicht durch nicht mehr funktionierende Links beeinträchtigt werden. Glauben Sie, Sie könnten Ihre Antwort etwas erweitern, um zusammenzufassen, was Ihrer Meinung nach die für diese Frage relevanten Kernpunkte des Inhalts waren? Ansonsten ist dies eher für einen Kommentar als für eine Antwort geeignet. (Ich schätze, Sie haben noch nicht genug Ruf, um Kommentare zu posten, aber wir können es für Sie in einen umwandeln.)
Silberfischchen

1
Danke für deine Antwort! Hier ist, was (Davydenko und Fildes, 2016) sagt: Die Anpassung eines statistischen Modells liefert normalerweise optimale Prognosen bei quadratischem Verlust. Dies geschieht beispielsweise, wenn wir eine lineare Regression anpassen. Wenn unsere Dichtevorhersage aus der statistischen Modellierung symmetrisch ist, sind die unter quadratischem Verlust optimalen Vorhersagen auch unter linearem Verlust optimal. Wenn wir jedoch die Varianz durch logarithmische Transformationen stabilisieren und dann Prognosen durch Exponentiation zurücktransformieren, erhalten wir Prognosen, die nur unter linearem Verlust optimal sind.
Turbofly

1
Vielen Dank! Sie können diese Informationen in Ihre Antwort einfügen (der "Bearbeiten" -Button befindet sich am Ende Ihres Beitrags).
Silverfish

Danke vielmals. Ich habe einige Formatierungen vorgenommen und ein vollständiges Zitat gegeben.
Silverfish

3

RMSE=MSEMEINE=MEIND

Tatsächlich,

MEINERMSEnMEINE

  • e
    RMSE=1neich2=1nne2=e=MEINE
  • e
    MEINE=en
    RMSE=1neich2=1ne2=1n(nMEINE)2=nMEINE

MEINERMSEMEINEyichy^ich[0,1]

  • eich1
    MEINE=nwrÖnGn
    RMSE=1neich2=1nnwrÖnG=MEINE
    nwrÖnGeich[0,1]eich<1

Wenn der RMSE nahe am MAE liegt, gibt es viele kleine Abweichungen. Wenn er nahe an der Obergrenze liegt, gibt es nur wenige grob falsche Vorhersagen.


Meinst du sqrt (n) * MAE oder sqrt (n * MAE) als Obergrenze?
Chris

1
@ Chris: es ist sqrt (n) * MAE, siehe meine Bearbeitung.
cbeleites unterstützt Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.