Es ist angemessen, eine falsche Bewertungsregel zu verwenden, wenn der eigentliche Zweck die Prognose ist, aber keine Schlussfolgerung. Es ist mir egal, ob ein anderer Prognostiker schummelt oder nicht, wenn ich derjenige bin, der die Prognose machen wird.
Durch geeignete Bewertungsregeln wird sichergestellt, dass sich das Modell während des Schätzprozesses dem tatsächlichen Datenerzeugungsprozess (DGP) annähert. Das klingt vielversprechend, denn wenn wir uns dem wahren DGP nähern, werden wir auch in Bezug auf die Prognose für jede Verlustfunktion gute Ergebnisse erzielen. Der Haken ist, dass unser Modellsuchraum (in Wirklichkeit fast immer) meistens nicht den wahren DGP enthält. Am Ende approximieren wir die wahre DGP mit einer funktionalen Form, die wir vorschlagen.
Wenn unsere Prognoseaufgabe in dieser realistischeren Umgebung einfacher ist, als die gesamte Dichte des tatsächlichen DGP zu ermitteln, können wir tatsächlich bessere Ergebnisse erzielen. Dies gilt insbesondere für die Klassifizierung. Zum Beispiel kann der wahre DGP sehr komplex sein, aber die Klassifizierungsaufgabe kann sehr einfach sein.
Jaroslaw Bulatow lieferte in seinem Blog das folgende Beispiel:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
Wie Sie unten sehen können, ist die wahre Dichte verwackelt, es ist jedoch sehr einfach, einen Klassifikator zu erstellen, um die dadurch erzeugten Daten in zwei Klassen zu unterteilen. Einfach wenn Ausgabeklasse 1 und wenn Ausgabeklasse 2.x ≥ 0x < 0
Anstatt der exakten Dichte oben zu entsprechen, schlagen wir das untere Rohmodell vor, das ziemlich weit vom wahren DGP entfernt ist. Es macht jedoch eine perfekte Klassifizierung. Dies wird durch die Verwendung von Scharnierverlust festgestellt, was nicht richtig ist.
Auf der anderen Seite, wenn Sie sich entscheiden, die richtige DGP mit Protokollverlust zu finden (was richtig ist), dann beginnen Sie, einige Funktionen anzupassen, da Sie nicht wissen, welche genaue Funktionsform Sie a priori benötigen. Aber wenn Sie sich immer mehr anstrengen, um es zu erreichen, beginnen Sie, Dinge falsch zu klassifizieren.
Beachten Sie, dass wir in beiden Fällen die gleichen funktionalen Formen verwendet haben. Im ungeeigneten Schadensfall degenerierte es zu einer Sprungfunktion, die wiederum eine perfekte Klassifikation ergab. Im richtigen Fall wurde es wahnsinnig und versuchte, jeden Bereich der Dichte zu befriedigen.
Grundsätzlich müssen wir nicht immer das wahre Modell erreichen, um genaue Vorhersagen zu erhalten. Oder manchmal müssen wir nicht wirklich auf dem gesamten Gebiet der Dichte Gutes tun, sondern nur auf bestimmten Teilen davon sehr gut sein.