Eine Bewertungsregel ist ein Mittel zur Bewertung der Einschätzung eines Agenten hinsichtlich der mit einem kategorialen Ereignis verbundenen Wahrscheinlichkeiten bei einem (kategorialen) Ergebnis des Ereignisses. Abhängig von der Vermutung und dem beobachteten Ergebnis gibt die Bewertungsregel dem Agenten eine Punktzahl (eine reelle Zahl). Eine Bewertungsregel soll Punktzahlen so zuweisen, dass der Agent mit der geringsten Punktzahl im Durchschnitt die genauesten Vermutungen anstellt. (Die Konventionen unterscheiden sich darin, ob Bewertungsregeln in Bezug auf Minimierung oder Maximierung festgelegt sind. Hier nehme ich die Minimierungsansicht.)
Eine wichtige Eigenschaft von Bewertungsregeln ist, ob sie eine ordnungsgemäße Bewertungsregel sind. das heißt, ob sie die niedrigste mittlere Punktzahl geben, wenn ein Agent die wahren Wahrscheinlichkeiten errät (oder, in einem subjektiven Bayes'schen Rahmen, geben sie die niedrigste hintere mittlere Punktzahl, wenn die eigenen Prioritäten des Agenten verwendet werden, wenn ein Agent seine eigenen Glaubensgrade verwendet seine Vermutungen). Im Fall eines binären Ereignisses ist ein quadratischer Fehler von 0 oder 1 (der Brier-Score) eine angemessene Bewertungsregel, der absolute Fehler jedoch nicht. Warum? Nun, das Kriterium der Richtigkeit basiert auf dem Mittelwert, und der Mittelwert ist das Maß für die zentrale Tendenz, die die Summe der quadratischen Differenzen minimiert, aber den absoluten Fehler nicht minimieren muss.
Diese Denkweise legt nahe, dass wir, wenn wir den Mittelwert in der Definition einer korrekten Bewertungsregel durch eine andere statistische Funktion wie den Median ersetzen, eine analoge Art von reichhaltiger Familie geeigneter Bewertungsregeln erhalten. Es ist nicht unangemessen, sich eine Situation vorzustellen, in der ein Agent seinen Medianwert und nicht seinen Mittelwert minimieren möchte. Tatsächlich scheint es keine nichttrivialen, für den Median geeigneten Bewertungsregeln zu geben. Betrachtet man den Fall eines binären Ereignisses erneut, so ist die mittlere Punktzahl eines Agenten gleich der Punktzahl, die dem Agenten gegeben wird, wenn das Ereignis nicht eintritt, unabhängig von der des Ereignisses, wenn die wahre Wahrscheinlichkeit kleiner als 1/2 ist genaue Wahrscheinlichkeit. Analoge Spielereien scheinen aufzutreten, wenn wir den Mittelwert beispielsweise durch den geometrischen Mittelwert ersetzen.
Gibt es also das Gefühl, dass die statistische Funktion der Mittelwert sein muss, damit die Theorie der richtigen Bewertungsregeln wie beabsichtigt funktioniert?
Mir ist klar, dass dies eine vage Frage ist, und die beste Antwort ist wahrscheinlich eine Erklärung dafür, warum die Frage nicht wirklich sinnvoll ist. Hier ist also der Kontext, in dem ich sie stelle, um Ihnen zu helfen, mich nicht zu verwirren. Ich bin ein Psychologe der Entscheidungsfindung und möchte häufig die Leistung (entweder prädiktive Leistung, Kreuzvalidierung oder Modellanpassung post-hoc) eines Modells quantifizieren, das Wahrscheinlichkeiten für die Auswahl der Personen ausspuckt ein binäres Entscheidungsszenario. Die obige Diskussion schlägt vor, dass ich eine richtige Bewertungsregel verwenden sollte. Es ist ärgerlich, dass die richtigen Bewertungsregeln nicht mit den Wahrscheinlichkeiten übereinstimmen. Ich möchte zum Beispiel die Quadratwurzel des mittleren quadratischen Fehlers ziehen, anstatt nur den mittleren quadratischen Fehler (dh den mittleren Brier-Wert) zu betrachten, aber im Fall eines Versuchs Der RMSE entspricht einem absoluten Fehler, der nicht richtig ist. Würde ich dann nicht denken, dass weniger genaue Modelle besser sind? Offensichtlich kann ich meine Methode zur Bewertung von Bewertungsregeln nicht einfach von eins in Bezug auf Mittelwerte auf eins in Bezug auf z. B. Mediane ändern. Muss ich mich einfach mit der Skala einer der üblichen Regeln für die ordnungsgemäße Bewertung vertraut machen oder eine statistische Signalerkennungsfläche wie den Bereich unter der ROC-Kurve oder d 'verwenden?
Eine zusätzliche Komplikation besteht darin, dass ich für eine Studie parametrisch bootstrap-Modellanpassungen gemäß Wagenmakers, Ratcliff, Gomez und Iverson (2004) betrachte, was bedeutet, dass ich eher Dichtediagramme von Scores als einzelne Scores betrachte. Dann ist noch weniger klar, ob ich mir Sorgen um die Richtigkeit oder um ein analoges Kriterium machen sollte.
Bearbeiten: Weitere Informationen finden Sie in diesem Kommentarthread zu Reddit .
Wagenmakers, E.-J., Ratcliff, R., Gomez, P. & Iverson, GJ (2004). Bewertung der Modellmimikry mithilfe des parametrischen Bootstraps. Journal of Mathematical Psychology, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004