Hintergrund (kann übersprungen werden)
Ich werde in entscheidungstheoretischen Begriffen wie folgt denken. Ein Benutzer muss eine Aktion auswählena unter einer Reihe von Möglichkeiten A. Die Aktion bringt ihm / ihr einen "Nutzen" (ein Begriff, der in der Wirtschaft häufig verwendet wird).u(a;s) je nach Naturzustand s das wird in Zukunft realisiert, wo s∈Seine Menge aller möglichen Zustände. (Der Nutzen ist im Grunde das Negative des Verlusts, und das Folgende könnte entweder in Bezug auf den Nutzen oder den Verlust gleichwertig umformuliert werden.) Der Benutzer zielt darauf ab, den erwarteten Nutzen (oder gleichwertig den erwarteten Verlust) für die Aktion zu maximieren.
maxa∈AESu(a;s).
Die Wahl der Maßnahme basiert auf der Vorhersage des zu realisierenden Naturzustandes. Bei einer Dichtevorhersage kann ein Benutzer den erwarteten Nutzen einer bestimmten Aktion berechnen, indem er den Nutzen dieser Aktion über die vorhergesagte Verteilung der Naturzustände
Dann wählt er / sie die Aktion (unter allen möglichen) aus, die diesen erwarteten Nutzen maximiert: . Der erwartete Nutzenwert bei dieser Aktion für diese Dichtevorhersage ist .f^S(⋅)
ES^u(a;s)=∫u(a;s)f^S(s)ds.
a^∗:=argmaxa∈AES^u(a;s)u^∗:=u(a^∗)
Wenn die Utility-Funktion ein eindeutiges Maximum hat (die Verlustfunktion hat ein eindeutiges Minimum), ist die optimale Aktion eindeutig. Wenn der Naturzustand eine kontinuierliche Zufallsvariable ist , existiert ein Punkt in der Verteilung (ein Naturzustand), der genau ergibt . Dieser Punkt definiert das Ziel der "relevanten" Punktprognose. Daher erhält der Benutzer genau das gleiche maximierte (über alle möglichen Aktionen) erwarteten Nutzen unabhängig davon , ob die Prognose bekommt er eine Dichte Prognose ist oder die „relevante“ Punktprognose (eine Einheit Wahrscheinlichkeitsmasse an einem bestimmten Zustand der Natur), zur Verfügung gestellt Die Qualität der beiden Prognosen ist "gleich gut".u^∗
Hauptteil (siehe Hintergrund für weitere Details)
Ich halte es für vernünftig anzunehmen, dass sich die Nützlichkeit einer Prognose vollständig in dem Verlust widerspiegelt, den sie einem bestimmten Benutzer zufügt. Dann ist das Ziel eines Benutzers, eine Prognose auszuwählen, die den erwarteten Verlust minimiert. Bei einer vorhergesagten Verteilung übernimmt der Benutzer daher eine konkrete Funktion davon (z. B. vorhergesagten Mittelwert), die den erwarteten Verlust minimiert. Der Rest der vorhergesagten Dichte hat für den Benutzer keinen Mehrwert.
Wenn die Verlustfunktion ein eindeutiges Minimum hat, ist die Funktion einwertig und dieser Wert ist die für den Benutzer relevante Punktprognose. Wenn beispielsweise die Verlustfunktion des Benutzers quadratisch ist (was ein eindeutiges Minimum im Mittelwert der wahren Verteilung hat), kümmert er sich nur um die Vorhersage des Mittelwerts. Wenn ein anderer Benutzer einem absoluten Verlust ausgesetzt ist (der im Median der tatsächlichen Verteilung ein eindeutiges Minimum aufweist), kümmert er sich nur um die Prognose des Medians. Das Bereitstellen einer Dichteprognose für einen dieser Benutzer zusätzlich zu den Prognosen des Mittelwerts bzw. des Medians hat für sie keinen Mehrwert.
Elliott und Timmermann (2016a) schreiben auf S. 423-424 (zur Auswertung von Dichtevorhersagen):
Eine Möglichkeit, [eine Dichtevorhersage auszuwerten], besteht darin, die Dichtevorhersage in eine Punktvorhersage umzuwandeln und die Methoden zur Auswertung der Punktvorhersage zu verwenden. Dieser einfache Ansatz zur Bewertung von Dichtevorhersagen kann aus mehreren Gründen angemessen sein. <...> [D] Sicherheitsprognosen können mit der Begründung begründet werden, dass es mehrere Benutzer mit unterschiedlichen Verlustfunktionen gibt. Jeder dieser Benutzer kann die Leistung einer Dichtevorhersage unter Bezugnahme auf die spezifische Verlustfunktion untersuchen, die für sein Problem als angemessen erachtet wird. Das relevante Maß für die prognostizierte Leistung ist der durchschnittliche Verlust, der aus der spezifischen Verlustfunktion jedes Benutzers berechnet wird.
Darüber hinaus kann bei einer bekannten Verlustfunktion eine Dichteprognose aus den folgenden zwei Gründen einer relevanten Punktprognose sogar unterlegen sein. Erstens sind Dichtevorhersagen typischerweise schwieriger zu erstellen als Punktvorhersagen. Zweitens können sie Präzision / Genauigkeit an einem bestimmten Punkt (z. B. Mittelwert oder Median) gegen Präzision / Genauigkeit über die gesamte vorhergesagte Verteilung austauschen. Das heißt, wenn man die gesamte Dichte vorhersagt, muss man möglicherweise etwas Präzision / Genauigkeit für die Vorhersage des Mittelwerts opfern, um an anderer Stelle eine größere Präzision / Genauigkeit zu erzielen. Wie Elliott und Timmermann (2016b) schreiben,
[D] Die Beziehungen zwischen den in der Literatur populären Bewertungsregeln und den zugrunde liegenden Verlustfunktionen für einzelne Benutzer sind nicht klar. Daher kann es durchaus sein, dass die verwendete Bewertungsregel eine schlechte Schätzung des Merkmals der bedingten Verteilung liefert, die einige Benutzer erstellen möchten.
Ein ähnliches Zitat findet sich in Elliott und Timmermann (2016a) , p. 277-278:
Es scheint, dass die Bereitstellung einer Vorhersagedichte der Berichterstattung über eine Punktprognose überlegen ist, da beide (a) mit einer Verlustfunktion kombiniert werden können, um eine beliebige Punktprognose zu erstellen; und (b) unabhängig von der Verlustfunktion ist. Bei der klassischen Schätzung der Vorhersagedichte hält keiner dieser Punkte in der Praxis wirklich stand. <...> [I] In der klassischen Einstellung hängen die geschätzten Vorhersageverteilungen von der Verlustfunktion ab. Alle Parameter der Vorhersagedichte müssen geschätzt werden, und diese Schätzungen erfordern eine gewisse Verlustfunktion, sodass Verlustfunktionen in die Mischung zurückgeworfen werden. Der Haken dabei ist, dass die Verlustfunktionen, die häufig bei der Dichteschätzung verwendet werden, nicht mit denen übereinstimmen, die für die Punktvorhersage verwendet werden, was zu minderwertigen Punktvorhersagen führen kann. <...> Außerdem
Wenn eine Verlustfunktion angegeben wird, kann es daher sinnvoll sein, sich auf die Vorhersage des bestimmten Punkts zu konzentrieren, der auf die Verlustfunktion zugeschnitten ist, anstatt zu versuchen, die gesamte Verteilung vorherzusagen. Dies ist möglicherweise einfacher und / oder genauer.
Eine kritische Frage an mich: Kann es sein, dass die "relevante" Punktvorhersage nicht als Funktion der unbekannten Dichte ausgedrückt werden kann, sondern für verschiedene Dichten unterschiedlich ist (als Funktion, nicht nur als Wert)? Dann wäre eine Dichtevorhersage erforderlich, um herauszufinden, an welcher Punktprognose man interessiert ist, was eine Dichtevorhersage zu einem unvermeidlichen Schritt im Punktvorhersageprozess macht.
Verweise: