AIC und C-Statistik versuchen unterschiedliche Fragen zu beantworten. (In den letzten Jahren wurden auch einige Probleme mit der C-Statistik angesprochen, auf die ich jedoch zur Seite treten werde.)
Grob gesagt:
- AIC sagt Ihnen, wie gut Ihr Modell für bestimmte Fehlklassifizierungskosten geeignet ist.
- AUC sagt Ihnen, wie gut Ihr Modell im Durchschnitt über alle Fehlklassifizierungskosten hinweg funktionieren würde.
Wenn Sie den AIC berechnen, behandeln Sie Ihre Logistik mit einer Vorhersage von beispielsweise 0,9 als eine Vorhersage von 1 (dh wahrscheinlicher 1 als 0), dies muss jedoch nicht der Fall sein. Sie könnten Ihre logistische Punktzahl nehmen und sagen: "Alles über 0,95 ist 1, alles unter 0". Wieso würdest du das machen? Nun, dies würde sicherstellen, dass Sie nur dann eine Vorhersage treffen, wenn Sie wirklich sehr, sehr sicher sind. Ihre falsch-positive Rate wird wirklich sehr niedrig sein, aber Ihre falsch-negative Rate wird in die Höhe schnellen. In manchen Situationen ist dies keine schlechte Sache - wenn Sie jemanden des Betrugs beschuldigen, möchten Sie wahrscheinlich zuerst wirklich wirklich sicher sein. Auch wenn es sehr teuer ist, die positiven Ergebnisse weiterzuverfolgen, möchten Sie nicht zu viele davon.
Aus diesem Grund handelt es sich um Kosten. Es gibt Kosten, wenn Sie eine 1 als 0 klassifizieren, und Kosten, wenn Sie eine 0 als 1 klassifizieren. In der Regel bezieht sich der AIC für die logistische Regression (vorausgesetzt, Sie haben ein Standard-Setup verwendet) auf den Sonderfall, wenn beide Fehlklassifizierungen gleich sind teuer. Das heißt, die logistische Regression gibt Ihnen die beste Gesamtzahl an korrekten Vorhersagen, ohne dass Sie positive oder negative bevorzugen.
Die ROC-Kurve wird verwendet, weil hiermit das wahre Positiv gegen das falsche Positiv aufgetragen wird, um zu zeigen, wie sich der Klassifikator verhalten würde, wenn Sie ihn unter verschiedenen Kostenanforderungen verwenden würden. Die c-Statistik entsteht, weil jede ROC-Kurve, die genau übereinander liegt, eindeutig ein dominierender Klassifikator ist. Es ist daher intuitiv, die Fläche unter der Kurve als Maß dafür zu messen, wie gut der Klassifikator insgesamt ist.
Wenn Sie also Ihre Kosten beim Anpassen des Modells kennen, verwenden Sie AIC (oder ähnliches). Wenn Sie nur einen Score erstellen, aber den diagnostischen Schwellenwert nicht angeben, sind AUC-Ansätze erforderlich (mit dem folgenden Vorbehalt zu AUC selbst).
Also, was ist los mit C-Statistik / AUC / Gini?
Über viele Jahre hinweg war AUC der Standardansatz und wird immer noch häufig verwendet, es gibt jedoch eine Reihe von Problemen. Besonders reizvoll war, dass es sich um einen Wilcox-Test in den Einstufungen handelt. Das heißt, es wird die Wahrscheinlichkeit gemessen, dass die Punktzahl eines zufällig ausgewählten Mitglieds einer Klasse höher ist als die eines zufällig ausgewählten Mitglieds der anderen Klasse. Das Problem ist, dass dies fast nie eine nützliche Metrik ist.
Die kritischsten Probleme mit AUC wurden vor einigen Jahren von David Hand veröffentlicht. (Siehe Referenzen weiter unten) Der Kern des Problems besteht darin, dass die AUC zwar über alle Kosten gemittelt wird, weil die x-Achse der ROC-Kurve False Positive Rate ist, das Gewicht, das sie den verschiedenen Kostenregimen zuweist, jedoch zwischen den Klassifizierern variiert. Wenn Sie also die AUC für zwei verschiedene logistische Regressionen berechnen, wird nicht in beiden Fällen "dasselbe" gemessen. Ein Vergleich von AUC-basierten Modellen ist daher wenig sinnvoll.
Hand schlug eine alternative Berechnung unter Verwendung einer festen Kostengewichtung vor und nannte dies das H-Maß. Es gibt ein Paket in R, das aufgerufen hmeasure
wird, um diese Berechnung durchzuführen, und ich glaube, AUC zum Vergleich.
Einige Hinweise auf die Probleme mit AUC:
Wann ist der Bereich unter der Betriebskennlinie des Empfängers ein geeignetes Maß für die Leistung des Klassifikators? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495
(Ich fand dies eine besonders zugängliche und nützliche Erklärung)