Ist Genauigkeit eine falsche Bewertungsregel in einer binären Klassifizierungseinstellung?


13

Ich habe vor kurzem über die richtigen Bewertungsregeln für Wahrscheinlichkeitsklassifikatoren gelernt. In mehreren Beiträgen auf dieser Website wurde betont, dass Genauigkeit eine falsche Bewertungsregel ist und nicht zur Bewertung der Qualität von Vorhersagen verwendet werden sollte, die von einem probabilistischen Modell wie der logistischen Regression generiert werden.

Einige wissenschaftliche Arbeiten, die ich gelesen habe, haben jedoch einen Fehlklassifizierungsverlust als Beispiel für eine (nicht strenge) richtige Bewertungsregel in einer binären Klassifizierungseinstellung angegeben. Die klarste Erklärung fand ich in diesem Artikel am Ende von Seite 7. Nach meinem besten Verständnis entspricht die Minimierung von Fehlklassifizierungsverlusten der Maximierung der Genauigkeit, und die Gleichungen in diesem Artikel sind intuitiv sinnvoll.

Zum Beispiel: Wenn unter Verwendung der Schreibweise die wahre bedingte Wahrscheinlichkeit (bei gegebenem Merkmalsvektor x ) der interessierenden Klasse η = 0,7 ist, hätte jede Prognose q > 0,5 einen erwarteten Verlust R (η | q ) = 0,7 (0) + 0,3 (1) = 0,3 und jedes q 0,5 hätte einen erwarteten Verlust von 0,7. Die Verlustfunktion würde daher bei q = & eegr; = 0,7 und folglich richtig minimiert werden ; Die Verallgemeinerung auf den gesamten Bereich der wahrheitsgemäßen bedingten Wahrscheinlichkeiten und Prognosen scheint von da an recht einfach zu sein.

Unter der Annahme, dass die obigen Berechnungen und Aussagen korrekt sind, liegen die Nachteile eines nicht eindeutigen Minimums und aller Vorhersagen über 0,5 bei gleichem erwarteten Minimumverlust auf der Hand. Ich sehe immer noch keinen Grund, die Genauigkeit gegenüber den herkömmlichen Alternativen wie Log-Score, Brier-Score usw. zu verwenden. Es ist jedoch richtig zu sagen, dass Genauigkeit eine richtige Bewertungsregel ist, wenn probabilistische Modelle in einer binären Einstellung bewertet werden, oder mache ich eine Fehler - entweder in meinem Verständnis von Fehlklassifizierungsverlust oder in der Gleichsetzung mit Genauigkeit?

Antworten:


15

TL; DR

Genauigkeit ist eine falsche Bewertungsregel. Benutze es nicht.

Die etwas längere Version

Eigentlich ist Genauigkeit nicht einmal eine Bewertungsregel. Die Frage, ob es (streng) richtig ist, ist ein Kategoriefehler. Das Beste, was wir sagen können, ist, dass unter zusätzlichen Annahmen Genauigkeit mit einer Bewertungsregel vereinbar ist, die unangemessen, diskontinuierlich und irreführend ist. (Benutze es nicht.)

Deine Verwirrung

Ihre Verwirrung ergibt sich aus der Tatsache, dass Fehlklassifizierungsverluste gemäß dem von Ihnen zitierten Papier ebenfalls keine Bewertungsregel sind.

Die Details: Bewertungsregeln vs. Klassifizierungsbewertungen

Lassen Sie uns die Terminologie korrigieren. Wir sind in einem binären Ergebnis interessiert , und wir haben eine probabilistische Vorhersage q =y{0,1}. Wir wissendassP(Y=1)=η>0,5, aber unser Modell q wissen oder auch nichtdass kann.q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^

Eine scoring Regel ist eine Abbildung , die eine probabilistische Vorhersage nimmt q und ein Ergebnis , y zu einem Verlust,q^y

s:(q^,y)s(q^,y).

istrichtigewenn sie von in Erwartung optimiert ist q = η . ( „Optimized“ bedeutetRegel „minimiert“, aber einige Autoren Flip Zeichen und versucheneine ScoringRegel zu maximieren.) S iststreng richtigwenn es in Erwartung optimiert istnurdurch q = η .sq^=ηsq^=η

Wir werden in der Regel bewerten auf vielen Prognosen q i und die Ergebnisse entsprechend y i und durchschnittliche diese Erwartung zu schätzen.sq^iyi

Was ist nun Genauigkeit ? Bei der Genauigkeit wird keine probabilistische Vorhersage als Argument herangezogen. Es dauert eine Klassifizierung y{ 0 , 1 }y^{0,1} und ein Ergebnis:

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

Daher ist Genauigkeit keine Bewertungsregel . Es ist eine Klassifizierungsbewertung. (Dies ist ein Begriff, den ich gerade erfunden habe; suche ihn nicht in der Literatur.)

Nun, natürlich können wir eine probabilistische Vorhersage wie unser nehmen q und in eine Klassifizierung drehen y . Dazu benötigen wir jedoch die zusätzlichen Annahmen, auf die oben Bezug genommen wurde. Zum Beispiel ist es sehr üblich, einen Schwellenwert θ zu verwenden und zu klassifizieren:q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

Ein sehr häufiger Schwellenwert ist . Beachten Sie, dass , wenn wir diese Schwelle verwenden und dann die Genauigkeit über viele Vorhersagen zu bewerten q i (wie oben) und die Ergebnisse entsprechen y i , wir die Fehlklassifikation Verlust dann kommen exakt nach buja et al. Ein Fehlklassifizierungsverlust ist somit auch keine Bewertungsregel, sondern eine Klassifizierungsbewertung.θ=0.5q^iyi

Wenn wir einen Klassifizierungsalgorithmus wie oben verwenden, können wir eine Klassifizierungsbewertung in eine Bewertungsregel umwandeln. Der Punkt ist, dass wir die zusätzlichen Annahmen des Klassifikators benötigen. Und dass die Genauigkeit oder Fehlklassifikation Verlust oder was auch immer andere Klassifikations Auswertung wir können dann hängt weniger von der probabilistischen Vorhersage q und mehr auf der Art , wie wir drehen q in eine Klassifizierung y = y ( q , θ ) . Die Klassifizierung Auswertung so zu optimieren nach einem roten Hering chasing sein, wenn wir bei der Bewertung der wirklich interessiert q .q^q^y^=y^(q^,θ)q^

Was ist nun an diesen Bewertungsregeln unter zusätzlichen Annahmen falsch? Nichts im vorliegenden Fall.unter der implizitenθ=0,5, wirdGenauigkeit maximieren und Fehlklassifikation Verlust über alle möglichen minimieren q(0,1). In diesem Fall ist unsere Bewertungsregel unter zusätzlichen Annahmen richtig.q^=ηθ=0.5q^(0,1)

Beachten Sie, dass was für die Genauigkeit wichtig ist oder eine Fehlklassifikation Verlust ist nur eine Frage: klassifizieren wir ( y ) alles , da die Mehrheit der Klasse oder nicht? y^Wenn wir dies tun, sind Genauigkeits- oder Fehlklassifizierungsverluste erfreulich. Wenn nicht, sind sie es nicht. Was über diese Frage wichtig ist , ist , dass es nur eine sehr schwache Verbindung zur Qualität der hat q .q^

Folglich unser Scoring-Regeln-under-Zusatz Annahmen sind nicht streng richtig, wie jeder qR auf die gleiche Klassifizierung Auswertung führen. Wir könnten den Standard verwenden θ = 0,5 , glauben , dass die Mehrheit der Klasse mit auftritt qq^θθ=0.5 und Klassifizieren allem als Mehrheitsklasse, weil q & ge ; θ . Die Genauigkeit ist hoch, aber wir haben keinen Anreizunsere zu verbessern q auf den korrekten Wert von η .q^=0.99q^θq^η

Oder wir hätten eine umfassende Analyse der asymmetrischen Kosten einer Fehlklassifizierung durchgeführt und entschieden, dass die beste Klassifizierungswahrscheinlichkeitsschwelle tatsächlich θ=0.2 . Dies kann beispielsweise passieren, wenn bedeutet, dass Sie an einer Krankheit leiden. Es wäre besser, Sie selbst zu behandeln , wenn Sie nicht an der Krankheit (leiden y = 0 ), und nicht umgekehrt, so dass es sinnvoll zu behandeln Menschen machen kann , auch wenn es eine geringe Wahrscheinlichkeit vorhergesagt (klein ist q ) Sie leiden darunter. Wir könnten dann ein horrend falsches Modell, das glaubt , dass die wahre Mehrheitsklasse tritt nur bei qy=1y=0q^ - aber wegen der Kosten von Fehlklassifikation, wir noch Klassifizieren alles wie diese (angenommen) Minderheit Klasse, weil wieder q & ge ; & thgr; . Wenn wir dies tun, lassen uns Genauigkeits- oder Fehlklassifizierungsverluste vermuten, dass wir alles richtig machen, auch wenn unser Vorhersagemodell nicht einmal herausfindet, welche unserer beiden Klassen die Mehrheit darstellt.q^=0.25q^θ

Daher können Genauigkeits- oder Fehlklassifizierungsverluste irreführend sein.

Darüber hinaus Genauigkeit und misclassification Verlust ist unsachgemäß unter den zusätzlichen Annahmen in komplexeren Situationen , in denen die Ergebnisse nicht iid sind. Frank Harrell zitiert in seinem Blog-Beitrag Schäden durch Klassifizierungsgenauigkeit und andere diskontinuierliche unkorrekte Genauigkeits-Bewertungsregeln ein Beispiel aus einem seiner Bücher, in dem die Verwendung von Genauigkeit oder Fehlklassifizierungsverlust zu einem falsch spezifizierten Modell führt, da sie nicht durch die richtige bedingte Vorhersage optimiert werden Wahrscheinlichkeit.

θ

Weitere Informationen finden Sie unter Warum ist Genauigkeit nicht das beste Maß für die Bewertung von Klassifizierungsmodellen? .

Die Quintessenz

Verwenden Sie keine Genauigkeit. Noch Fehlklassifizierungsverlust.

Der Nitpick: "streng" vs. "streng"

Sollten wir über "strenge" Regeln für die richtige Wertung sprechen oder über "strenge" Regeln für die richtige Wertung? "Streng" ändert die "richtige" und nicht die "Bewertungsregel". (Es gibt "korrekte Bewertungsregeln" und "streng korrekte Bewertungsregeln", aber keine "strengen Bewertungsregeln".) Daher sollte "streng" ein Adverb und kein Adjektiv sein und "streng" verwendet werden. Wie in der Literatur üblich, zB die Arbeiten von Tilmann Gneiting.


Es gibt viele Aspekte Ihres Beitrags, denen ich nicht folge (oder die meiner Meinung nach für die von mir gestellte Frage nicht relevant sind), aber beginnen wir mit "der Fehlklassifizierung nach dem von Ihnen zitierten Artikel ist keine Bewertungsregel". Die Formel wird in der Arbeit sehr deutlich angegeben: L1 (1-q) = 1 [q <= 0,5] (entschuldigen Sie die schlechte Formatierung). Für alle praktischen Zwecke ist dies eine Sprungfunktion, die eine wahrscheinlichkeitstheoretische Vorhersage und das damit verbundene Ergebnis direkt auf einen Verlust von 0 oder 1 abbildet. Außerdem ist 0,5 nur ein Parameter, der steuert, wo der Sprung auftritt. Ich sehe die "Vermutung" nicht. Wie ist das nicht eine Bewertungsregel?
Zyzzva

1
Die Schwelle von 0,5 ist die Annahme. Die probabilistische Vorhersage wird auf a abgebildetq unter Verwendung der Schwelle Klassifikation , und der Fehlklassifikationsverlust ist dann nur eine Funktion dieser Klassifikation. Sie können den Fehlklassifizierungsverlust auch für jede andere Klassifizierung berechnen, z. B. eine, die einen Würfel wirft und eine Instanz der Klasse A zuweist, wenn wir eine 1 oder 2 würfeln. Ich habe mein Bestes getan, um zu erklären, was ein kompliziertes und oft missverstandenes Thema ist (und ich fühle mich , dass alles , was ich darüber schreiben , ist relevant); Es tut mir leid, wenn es mir nicht gelungen ist. Über weitere Punkte würde ich mich freuen.
Stephan Kolassa

1
Was den Relevanzkommentar angeht, entschuldige ich mich, wenn er falsch verlaufen ist. Ich habe versucht, den Umfang der Frage so zu fokussieren, dass es speziell um richtige oder unpassende Fragen geht, nicht um diskontinuierliche oder irreführende Fragen. Ich bin mit den von Ihnen bereitgestellten Links gut vertraut und habe keine Probleme mit Ihren Kommentaren zu Fehlklassifizierungskosten oder dem Endergebnis. Ich versuche nur, die Aussage "Genauigkeit ist unangemessen" strenger zu erklären, zumal dieses Papier für den allgemeinen Anwendungsfall von binären Ergebnissen etwas anderes vorschlägt. Ich weiß es zu schätzen, dass Sie sich die Zeit nehmen, dies mit mir zu besprechen und Ihre detaillierten Gedanken zu teilen.
Zyzzva

1
Nach weiteren Überlegungen denke ich, dass ich den Punkt, den Sie ansprechen, klarer erfassen kann. Betrachten wir die gleiche Sprungfunktion mit dem Sprung bei 0,6 (entsprechend einer Klassifizierung bei einem Schwellenwert von 0,6), so ist die Bewertungsregel unangemessen, da der erwartete Verlust nicht mehr durch eine Vorhersage q = n für n im Bereich minimiert wird [ 0,5, 0,6]. Im Allgemeinen ist es bei jedem anderen Schwellenwert als 0,5 nicht richtig, und in der Praxis möchten wir häufig andere Schwellenwerte verwenden, da die Kosten für die Fehlklassifizierung asymmetrisch sind, wie Sie betont haben.
Zyzzva

1
Ich stimme zu, dass Genauigkeit eindeutig eine schlechte Messgröße für die Bewertung von Wahrscheinlichkeiten ist, auch wenn ein Schwellenwert von 0,5 gerechtfertigt ist. Das habe ich am Ende des ursprünglichen Beitrags gesagt, aber das hat mir dabei geholfen, die spezifischen Details zu klären, mit denen ich Probleme hatte - nämlich etwas zu vereinbaren, das ich falsch verstanden habe, als zu zeigen, dass Genauigkeit für binäre Ergebnisse geeignet ist (wenn es nur Realität ist) trifft auf den sehr spezifischen Fall einer Schwelle von 0,5 zu) mit der scheinbar schwarz-weißen Aussage "Genauigkeit ist unangemessen", die ich viel gesehen habe. Vielen Dank für Ihre Hilfe und Geduld.
Zyzzva
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.