Wann ist es angebracht, eine falsche Bewertungsregel anzuwenden?


27

Merkle & Steyvers (2013) schreiben:

Um eine korrekte Bewertungsregel formal zu definieren, sei eine probabilistische Vorhersage eines Bernoulli-Versuchs mit echter Erfolgswahrscheinlichkeit . Richtige Bewertungsregeln sind Metriken, deren erwartete Werte minimiert werden, wenn .fdpf=p

Ich verstehe, dass dies gut ist, weil wir die Prognostiker ermutigen möchten, Prognosen zu erstellen, die ehrlich ihre wahren Überzeugungen widerspiegeln, und ihnen keine perversen Anreize geben möchten, etwas anderes zu tun.

Gibt es Beispiele aus der Praxis, in denen es angebracht ist, eine falsche Bewertungsregel zu verwenden?

Referenz
Merkle, EC & Steyvers, M. (2013). Auswahl einer streng korrekten Bewertungsregel. Decision Analysis, 10 (4), 292-304


1
Ich denke, die erste Spalte der letzten Seite von Winkler & Jose "Scoring rules" (2010), die Merkle & Steyvers (2013) zitieren, bietet eine Antwort. Wenn nämlich der Nutzen keine affine Transformation der Punktzahl ist (was durch Risikoaversion und dergleichen gerechtfertigt sein könnte), würde die Maximierung des erwarteten Nutzens im Widerspruch zur Maximierung der erwarteten Punktzahl stehen
Richard Hardy,

Antworten:


25

Es ist angemessen, eine falsche Bewertungsregel zu verwenden, wenn der eigentliche Zweck die Prognose ist, aber keine Schlussfolgerung. Es ist mir egal, ob ein anderer Prognostiker schummelt oder nicht, wenn ich derjenige bin, der die Prognose machen wird.

Durch geeignete Bewertungsregeln wird sichergestellt, dass sich das Modell während des Schätzprozesses dem tatsächlichen Datenerzeugungsprozess (DGP) annähert. Das klingt vielversprechend, denn wenn wir uns dem wahren DGP nähern, werden wir auch in Bezug auf die Prognose für jede Verlustfunktion gute Ergebnisse erzielen. Der Haken ist, dass unser Modellsuchraum (in Wirklichkeit fast immer) meistens nicht den wahren DGP enthält. Am Ende approximieren wir die wahre DGP mit einer funktionalen Form, die wir vorschlagen.

Wenn unsere Prognoseaufgabe in dieser realistischeren Umgebung einfacher ist, als die gesamte Dichte des tatsächlichen DGP zu ermitteln, können wir tatsächlich bessere Ergebnisse erzielen. Dies gilt insbesondere für die Klassifizierung. Zum Beispiel kann der wahre DGP sehr komplex sein, aber die Klassifizierungsaufgabe kann sehr einfach sein.

Jaroslaw Bulatow lieferte in seinem Blog das folgende Beispiel:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

Wie Sie unten sehen können, ist die wahre Dichte verwackelt, es ist jedoch sehr einfach, einen Klassifikator zu erstellen, um die dadurch erzeugten Daten in zwei Klassen zu unterteilen. Einfach wenn Ausgabeklasse 1 und wenn Ausgabeklasse 2.x0x<0

Bildbeschreibung hier eingeben

Anstatt der exakten Dichte oben zu entsprechen, schlagen wir das untere Rohmodell vor, das ziemlich weit vom wahren DGP entfernt ist. Es macht jedoch eine perfekte Klassifizierung. Dies wird durch die Verwendung von Scharnierverlust festgestellt, was nicht richtig ist.

Bildbeschreibung hier eingeben

Auf der anderen Seite, wenn Sie sich entscheiden, die richtige DGP mit Protokollverlust zu finden (was richtig ist), dann beginnen Sie, einige Funktionen anzupassen, da Sie nicht wissen, welche genaue Funktionsform Sie a priori benötigen. Aber wenn Sie sich immer mehr anstrengen, um es zu erreichen, beginnen Sie, Dinge falsch zu klassifizieren.

Bildbeschreibung hier eingeben

Beachten Sie, dass wir in beiden Fällen die gleichen funktionalen Formen verwendet haben. Im ungeeigneten Schadensfall degenerierte es zu einer Sprungfunktion, die wiederum eine perfekte Klassifikation ergab. Im richtigen Fall wurde es wahnsinnig und versuchte, jeden Bereich der Dichte zu befriedigen.

Grundsätzlich müssen wir nicht immer das wahre Modell erreichen, um genaue Vorhersagen zu erhalten. Oder manchmal müssen wir nicht wirklich auf dem gesamten Gebiet der Dichte Gutes tun, sondern nur auf bestimmten Teilen davon sehr gut sein.


13
Das ist ein faszinierendes Beispiel, wirklich ein Denkanstoß.
Matthew Drury

7

Die Genauigkeit (dh der korrekt klassifizierte Prozentsatz) ist eine falsche Bewertungsregel. In gewissem Sinne tun dies die Leute die ganze Zeit.

Im Allgemeinen ist jede Bewertungsregel, die Vorhersagen in eine vordefinierte Kategorie zwingt, unangemessen. Die Klassifizierung ist ein extremer Fall (die einzig zulässigen Vorhersagen sind 0% und 100%), aber die Wettervorhersage ist wahrscheinlich auch etwas ungenau - meine lokalen Stationen scheinen die Regenwahrscheinlichkeit in Intervallen von 10 oder 20% zu melden, obwohl ich Ich wette, das zugrunde liegende Modell ist viel genauer.

Die richtigen Bewertungsregeln setzen auch voraus, dass der Prognostiker risikoneutral ist. Dies ist häufig nicht der Fall bei tatsächlichen Prognostikern, die in der Regel risikobehaftet sind, und einige Anwendungen können von einer Bewertungsregel profitieren, die diese Verzerrung reproduziert. Zum Beispiel könnten Sie P (Regen) ein wenig mehr Gewicht geben, da Sie einen Regenschirm tragen, diesen aber nicht benötigen. Dies ist weitaus besser, als von einem Regenschauer erfasst zu werden.


3
Ich glaube nicht, dass ich Ihren dritten Absatz verstehe. Ich hatte eine ähnliche Antwort in der Richtung geschrieben, dass wir uns vielleicht mehr darauf konzentrieren wollen, hohe Quantile der prädiktiven Dichte richtig zu machen, aber ich sehe nicht, wie eine solche Verlustfunktion uns dazu motivieren würde, eine falsche Bewertungsregel anzuwenden. Schließlich wären wir immer noch sehr motiviert, die richtige zukünftige Verteilung vorherzusagen. Könnten Sie näher darauf eingehen?
S. Kolassa - Wiedereinsetzung von Monica

1
Wenn der Prognostiker seinen erwarteten Nutzen maximiert (anstelle des Werts), sind die richtigen Bewertungsregeln möglicherweise nicht korrekt (z. B. wenn der Nutzen keine lineare Funktion der Punktzahl ist). Wenn Sie jedoch die Nutzenfunktion kennen oder schätzen können, können Sie sich vermutlich eine speziell zugeschnittene Bewertungsregel ausdenken, indem Sie deren Umkehrung anwenden.
Matt Krause

3
Aber die Richtigkeit oder Nicht-Richtigkeit der Bewertungsregel hängt nicht mit dem Nutzen zusammen, sondern nur mit der vorhergesagten und tatsächlichen zukünftigen Verteilung. Daher verstehe ich weder den ersten Satz Ihres Kommentars noch, warum wir eine falsche Bewertungsregel verwenden möchten . Sie erinnern mich jedoch an einen Aufsatz von Ehm et al., Der in JRSS-B erscheinen soll , den ich beim Schreiben meiner abgebrochenen Antwort überflogen habe , in dem ich für die vorliegende Frage jedoch nichts Nützliches gefunden habe - eine genauere Lektüre kann hilfreicher sein.
S. Kolassa - Wiedereinsetzung von Monica am

@StephanKolassa, erklärt das vielleicht die erste Spalte der letzten Seite von Winkler & Jose "Scoring rules" (2010)?
Richard Hardy

Kommentare sind nicht für eine längere Diskussion gedacht. Diese Unterhaltung wurde in den Chat verschoben .
gung - Wiedereinsetzung von Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.