Ist AUC die Wahrscheinlichkeit, eine zufällig ausgewählte Instanz aus jeder Klasse korrekt zu klassifizieren?


10

Ich habe diese Bildunterschrift in einer Zeitung gelesen und noch nie irgendwo anders eine so beschriebene AUC gesehen. Ist das wahr? Gibt es einen Beweis oder eine einfache Möglichkeit, dies zu sehen?

Fig. 2 zeigt die Vorhersagegenauigkeit dichotomer Variablen, ausgedrückt als Fläche unter der Empfänger-Betriebskennlinie (AUC), die der Wahrscheinlichkeit entspricht, zwei zufällig ausgewählte Benutzer aus jeder Klasse (z. B. männlich und weiblich) korrekt zu klassifizieren ).

Es scheint mir, dass es nicht wahr sein kann, da für AUC = 0,5 das oben Gesagte bedeuten würde, dass man eine 50% ige Wahrscheinlichkeit hat, einen Münzwurf zweimal hintereinander korrekt vorherzusagen, aber in Wirklichkeit haben Sie nur eine 25% ige Chance zwei Münzwürfe hintereinander richtig vorherzusagen. Zumindest denke ich so über diese Aussage nach.


1
Ich schätze, dass das im Titel ausgedrückte Konzept sowieso nicht ganz richtig ist, aber sollte es, um dem Zitat zu entsprechen, nicht "die Wahrscheinlichkeit einer korrekten Klassifizierung ..." und nicht nur "die Wahrscheinlichkeit einer Klassifizierung" sagen? Das hat mich verwirrt, als ich es zum ersten Mal las.
Silverfish

1
Es war schon ein Titel, der lang genug war! Ich habe tatsächlich darüber nachgedacht, "richtig" hinzuzufügen, ob Sie es glauben oder nicht. :)
thecity2

Antworten:


13

Das Zitat ist etwas falsch. Die richtige Aussage ist, dass die ROC-AUC die Wahrscheinlichkeit ist, dass ein zufällig ausgewähltes positives Beispiel höher eingestuft wird als ein zufällig ausgewähltes negatives Beispiel. Dies ist auf die Beziehung zwischen der ROC AUC und dem Wilcoxon-Test der Ränge zurückzuführen.

Sie finden die Diskussion in Tom Fawcett " Eine Einführung in die ROC-Analyse " aufschlussreich.


8

Die Beschreibung des Autors ist nicht ganz korrekt. Die Fläche unter der ROC-Kurve entspricht tatsächlich der Wahrscheinlichkeit, dass ein zufällig ausgewähltes positives Beispiel eine höhere Risikobewertung aufweist als ein zufällig ausgewähltes negatives Beispiel. Dies hat nicht unbedingt etwas mit der Klassifizierung zu tun, sondern ist nur ein Maß für die Trennung zwischen den Punkteverteilungen.

Stellen Sie sich für Ihr Münzbeispiel vor, Sie haben zwei Münzen und jeder ist eine Punktzahl zugeordnet. Sie werfen dann beide Münzen um, bis eine Kopf und die andere Zahl auftaucht (da wir uns auf unterschiedliche Ergebnisse einstellen). Dies entspricht einem Modell mit zufälliger Bewertung, und die Wahrscheinlichkeit, dass die Münze, die auf den Kopf kam, eine höhere (oder niedrigere) Punktzahl aufweist, beträgt 1/2.


2

Die Beschreibung, die Sie gelesen haben, ist korrekt, obwohl mir der Wortlaut nicht gefällt. Der Bereich unter der ROC (AUC) -Kurve ist die Wahrscheinlichkeit, ein zufälliges Personenpaar aus Klasse 2 korrekt in Klasse 1 zu klassifizieren. Es handelt sich um eine rangbasierte Statistik. Wenn Sie also raten müssen, ob eine Person im Paar höher als eingestuft ist Das andere ist nur eine 50% ige Chance, wenn man zufällig rät. Die AUC ist identisch [1] mit der Wilcoxon-Teststatistik mit Vorzeichen und kann zur Veranschaulichung ihrer Bedeutung verwendet werden.

[1]: Mason & Graham (2002). Bereiche unterhalb der Kurven der relativen Betriebseigenschaften (ROC) und der relativen Betriebsebenen (ROL): Statistische Signifikanz und Interpretation. Vierteljährliches Journal der Royal Meteorological Society. 128: 2145–2166.


1

Wie andere betonten, drückt die AUC die Wahrscheinlichkeit aus, dass ein zufällig ausgewähltes Beispiel aus der positiven Klasse vom Klassifizierer eine höhere Punktzahl erhält als ein zufällig ausgewähltes Beispiel aus der negativen Klasse.

Zum Beweis dieser Eigenschaft siehe: Wie leite ich eine mathematische Formel für AUC ab?

Oder die für diese Antwort verwendete Quelle: D. Hand, 2009, Messung der Klassifikatorleistung: eine kohärente Alternative zum Bereich unter der ROC-Kurve

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.