Während die beiden statistischen Kennzahlen wahrscheinlich korrelieren, messen sie unterschiedliche Qualitäten des Klassifikators.
AUROC
Die Fläche unter der Kurve (AUC) entspricht der Wahrscheinlichkeit, dass ein Klassifikator eine zufällig ausgewählte positive Instanz höher einstuft als ein zufällig ausgewähltes negatives Beispiel. Er misst die Klassifizierer Mann - Ranking eine Reihe von Mustern nach dem Grad , in dem sie auf die positive Klasse gehören, aber ohne tatsächlich Muster zu Klassen zuordnen.
Die Gesamtgenauigkeit hängt auch von der Fähigkeit des Klassifikators ab, Muster zu klassifizieren, aber auch von seiner Fähigkeit, einen Schwellenwert in der Rangfolge auszuwählen, der verwendet wird, um Muster der positiven Klasse zuzuweisen, wenn sie über dem Schwellenwert liegt, und der negativen Klasse, wenn sie darunter liegt.
Somit hat der Klassifikator mit der höheren AUROC-Statistik (wobei alle Dinge gleich sind) wahrscheinlich auch eine höhere Gesamtgenauigkeit, da die Rangfolge der Muster (die AUROC misst) sowohl für AUROC als auch für die Gesamtgenauigkeit vorteilhaft ist. Wenn jedoch ein Klassifikator Muster gut einordnet, aber den Schwellenwert schlecht auswählt, kann er eine hohe AUROC, aber eine schlechte Gesamtgenauigkeit aufweisen.
Praktischer Nutzen
In der Praxis sammle ich gerne die Gesamtgenauigkeit, die AUROC, und wenn der Klassifikator die Wahrscheinlichkeit einer Klassenzugehörigkeit, die Kreuzentropie oder prädiktive Informationen schätzt. Dann habe ich eine Metrik, die die rohe Fähigkeit misst, eine harte Klassifizierung durchzuführen (vorausgesetzt, die Kosten für falsch-positive und falsch-negative Fehlklassifizierungen sind gleich und die Klassenhäufigkeiten in der Stichprobe sind die gleichen wie im Betrieb - eine große Annahme!). Eine Metrik, die die Fähigkeit zur Einstufung von Mustern misst, und eine Metrik, die misst, wie gut die Einstufung als Wahrscheinlichkeit kalibriert ist.
Für viele Aufgaben sind die Kosten für eine Fehlklassifizierung des Betriebs unbekannt oder variabel, oder die Häufigkeiten der Betriebsklassen unterscheiden sich von denen in der Schulungsstichprobe oder sind variabel. In diesem Fall ist die Gesamtgenauigkeit oftmals ziemlich bedeutungslos und der AUROC ist ein besserer Leistungsindikator. Idealerweise möchten wir einen Klassifikator, der gut kalibrierte Wahrscheinlichkeiten ausgibt, damit wir diese Probleme im betrieblichen Einsatz ausgleichen können. Welche Metrik wichtig ist, hängt im Wesentlichen von dem Problem ab, das wir zu lösen versuchen.