Wirklich gute Frage, und eine, die ich finde, dass die meisten Leute auf einer intuitiven Ebene nicht wirklich verstehen. AUC
wird in der Tat häufig aus verschiedenen Gründen der Genauigkeit für die binäre Klassifizierung vorgezogen. Lassen Sie uns jedoch zunächst genau darüber sprechen, was AUC
ist. Um ehrlich zu sein, ist es überraschend stumpf, genau herauszufinden, wie dies AUC
funktioniert , da dies eine der am häufigsten verwendeten Wirksamkeitsmetriken ist .
AUC
steht für Area Under the Curve
welche kurve fragst du Nun, das wäre die ROC
Kurve. ROC
steht für Receiver Operating Characteristic , was eigentlich etwas nicht intuitiv ist. Das implizite Ziel von AUC
ist es, Situationen zu bewältigen, in denen Sie eine sehr verzerrte Stichprobenverteilung haben und keine Überanpassung für eine einzelne Klasse vornehmen möchten.
Ein gutes Beispiel ist die Spam-Erkennung. Im Allgemeinen sind Spam-Datasets STARK auf Ham oder Nicht-Spam ausgerichtet. Wenn Ihr Datensatz zu 90% aus Schinken besteht, können Sie eine verdammt gute Genauigkeit erzielen, indem Sie einfach sagen, dass jede einzelne E-Mail Schinken ist, was offensichtlich auf einen nicht idealen Klassifikator hinweist. Beginnen wir mit ein paar Metriken, die für uns etwas nützlicher sind, insbesondere der True-Positive-Rate ( TPR
) und der False-Positive-Rate ( FPR
):
Nun ist in diesem Diagramm TPR
speziell das Verhältnis von wahrem Positiv zu allen Positiven und FPR
das Verhältnis von falschem Positiv zu allen Negativen. (Beachten Sie , dass dies nur für binäre Klassifizierung.) In einem Diagramm wie diese, sollte es ziemlich einfach sein , um herauszufinden , dass eine Vorhersage alle 0 oder alle 1 in den Punkten führen (0,0)
und (1,1)
jeweils. Wenn Sie eine Linie durch diese Linien ziehen, erhalten Sie ungefähr Folgendes:
Was im Grunde wie eine diagonale Linie aussieht (es ist) und durch eine einfache Geometrie kann man sehen, dass die AUC
eines solchen Modells wäre 0.5
(Höhe und Basis sind beide 1). Wenn Sie eine zufällige Zusammenstellung von Nullen und Einsen vorhersagen, sagen wir 90% Einsen, könnten Sie den Punkt erhalten (0.9, 0.9)
, der wiederum entlang dieser diagonalen Linie fällt.
Nun kommt der interessante Teil. Was wäre, wenn wir nicht nur Nullen und Einsen vorhersagen würden? Was wäre, wenn wir stattdessen sagen wollten, dass wir theoretisch einen Grenzwert festlegen würden, oberhalb dessen jedes Ergebnis eine 1 und unterhalb dessen jedes Ergebnis eine 0 ist. Dies würde bedeuten, dass Sie im Extremfall die ursprüngliche Situation erhalten, in der Sie sich befinden haben alle Nullen und alle Einsen (bei einem Cutoff von 0 bzw. 1), aber auch eine Reihe von Zwischenzuständen, die in den 1x1
Graphen fallen, der Ihre enthält ROC
. In der Praxis erhalten Sie so etwas:
Was Sie also tatsächlich erhalten, wenn Sie eine AUC
Überpräzision durchführen, ist etwas, das die Leute stark davon abhält, sich für Modelle zu entscheiden, die repräsentativ, aber nicht diskriminierend sind, da dies tatsächlich nur Modelle auswählt, die falsch positive und wahr positive Raten erzielen deutlich über dem Zufall liegen, was für die Richtigkeit nicht garantiert ist.