Was ist der Unterschied zwischen dem AIC und der C-Statistik (AUC) für die Modellanpassung?

Akaike Information Criterion (AIC) und die c-Statistik (Fläche unter der ROC-Kurve) sind zwei Messgrößen für die logistische Regression. Es fällt mir schwer zu erklären, was passiert, wenn die Ergebnisse der beiden Maßnahmen nicht konsistent sind. Ich denke, sie messen etwas unterschiedliche Aspekte der Modellanpassung, aber was sind diese spezifischen Aspekte?

Ich habe 3 logistische Regressionsmodelle. Modell M0 hat einige Standard-Kovariaten. Modell M1 fügt X1 zu M0 hinzu; Modell M2 fügt X2 zu M0 hinzu (daher sind M1 und M2 nicht verschachtelt).

Der Unterschied in der AIC von M0 zu M1 und M2 beträgt ungefähr 15, was darauf hinweist, dass X1 und X2 beide die Modellanpassung verbessern und ungefähr um den gleichen Betrag.

c-Statistiken sind: M0, 0,70; M1, 0,73; M2 0,72. Der Unterschied in der c-Statistik von M0 zu M1 ist signifikant (Methode von DeLong et al. 1988), aber der Unterschied von M0 zu M2 ist nicht signifikant, was darauf hinweist, dass X1 die Modellanpassung verbessert, X2 jedoch nicht.

X1 wird nicht routinemäßig gesammelt. X2 soll routinemäßig eingesammelt werden, fehlt jedoch in etwa 40% der Fälle. Wir möchten entscheiden, ob mit der Erfassung von X1 begonnen oder die Erfassung von X2 verbessert oder beide Variablen gelöscht werden sollen.

Aus AIC schließen wir, dass die Variablen das Modell ähnlich verbessern. Es ist wahrscheinlich einfacher, die Erfassung von X2 zu verbessern, als eine komplett neue Variable (X1) zu erfassen. Daher möchten wir die Erfassung von X2 verbessern. Aufgrund der c-Statistik verbessert X1 das Modell und X2 nicht. Daher sollten wir X2 vergessen und mit dem Sammeln von X1 beginnen.

Da unsere Empfehlung davon abhängt, auf welche Statistik wir uns konzentrieren, müssen wir den Unterschied bei der Messung klar verstehen.

Jeder Rat ist willkommen.

— Timbp
quelle

Antworten:

AIC und C-Statistik versuchen unterschiedliche Fragen zu beantworten. (In den letzten Jahren wurden auch einige Probleme mit der C-Statistik angesprochen, auf die ich jedoch zur Seite treten werde.)

Grob gesagt:

AIC sagt Ihnen, wie gut Ihr Modell für bestimmte Fehlklassifizierungskosten geeignet ist.
AUC sagt Ihnen, wie gut Ihr Modell im Durchschnitt über alle Fehlklassifizierungskosten hinweg funktionieren würde.

Wenn Sie den AIC berechnen, behandeln Sie Ihre Logistik mit einer Vorhersage von beispielsweise 0,9 als eine Vorhersage von 1 (dh wahrscheinlicher 1 als 0), dies muss jedoch nicht der Fall sein. Sie könnten Ihre logistische Punktzahl nehmen und sagen: "Alles über 0,95 ist 1, alles unter 0". Wieso würdest du das machen? Nun, dies würde sicherstellen, dass Sie nur dann eine Vorhersage treffen, wenn Sie wirklich sehr, sehr sicher sind. Ihre falsch-positive Rate wird wirklich sehr niedrig sein, aber Ihre falsch-negative Rate wird in die Höhe schnellen. In manchen Situationen ist dies keine schlechte Sache - wenn Sie jemanden des Betrugs beschuldigen, möchten Sie wahrscheinlich zuerst wirklich wirklich sicher sein. Auch wenn es sehr teuer ist, die positiven Ergebnisse weiterzuverfolgen, möchten Sie nicht zu viele davon.

Aus diesem Grund handelt es sich um Kosten. Es gibt Kosten, wenn Sie eine 1 als 0 klassifizieren, und Kosten, wenn Sie eine 0 als 1 klassifizieren. In der Regel bezieht sich der AIC für die logistische Regression (vorausgesetzt, Sie haben ein Standard-Setup verwendet) auf den Sonderfall, wenn beide Fehlklassifizierungen gleich sind teuer. Das heißt, die logistische Regression gibt Ihnen die beste Gesamtzahl an korrekten Vorhersagen, ohne dass Sie positive oder negative bevorzugen.

Die ROC-Kurve wird verwendet, weil hiermit das wahre Positiv gegen das falsche Positiv aufgetragen wird, um zu zeigen, wie sich der Klassifikator verhalten würde, wenn Sie ihn unter verschiedenen Kostenanforderungen verwenden würden. Die c-Statistik entsteht, weil jede ROC-Kurve, die genau übereinander liegt, eindeutig ein dominierender Klassifikator ist. Es ist daher intuitiv, die Fläche unter der Kurve als Maß dafür zu messen, wie gut der Klassifikator insgesamt ist.

Wenn Sie also Ihre Kosten beim Anpassen des Modells kennen, verwenden Sie AIC (oder ähnliches). Wenn Sie nur einen Score erstellen, aber den diagnostischen Schwellenwert nicht angeben, sind AUC-Ansätze erforderlich (mit dem folgenden Vorbehalt zu AUC selbst).

Also, was ist los mit C-Statistik / AUC / Gini?

Über viele Jahre hinweg war AUC der Standardansatz und wird immer noch häufig verwendet, es gibt jedoch eine Reihe von Problemen. Besonders reizvoll war, dass es sich um einen Wilcox-Test in den Einstufungen handelt. Das heißt, es wird die Wahrscheinlichkeit gemessen, dass die Punktzahl eines zufällig ausgewählten Mitglieds einer Klasse höher ist als die eines zufällig ausgewählten Mitglieds der anderen Klasse. Das Problem ist, dass dies fast nie eine nützliche Metrik ist.

Die kritischsten Probleme mit AUC wurden vor einigen Jahren von David Hand veröffentlicht. (Siehe Referenzen weiter unten) Der Kern des Problems besteht darin, dass die AUC zwar über alle Kosten gemittelt wird, weil die x-Achse der ROC-Kurve False Positive Rate ist, das Gewicht, das sie den verschiedenen Kostenregimen zuweist, jedoch zwischen den Klassifizierern variiert. Wenn Sie also die AUC für zwei verschiedene logistische Regressionen berechnen, wird nicht in beiden Fällen "dasselbe" gemessen. Ein Vergleich von AUC-basierten Modellen ist daher wenig sinnvoll.

Hand schlug eine alternative Berechnung unter Verwendung einer festen Kostengewichtung vor und nannte dies das H-Maß. Es gibt ein Paket in R, das aufgerufen hmeasurewird, um diese Berechnung durchzuführen, und ich glaube, AUC zum Vergleich.

Einige Hinweise auf die Probleme mit AUC:

Wann ist der Bereich unter der Betriebskennlinie des Empfängers ein geeignetes Maß für die Leistung des Klassifikators? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495

(Ich fand dies eine besonders zugängliche und nützliche Erklärung)

— Corone
quelle

Und hier ist eine weitere Veröffentlichung von DJ Hand: Messung der Klassifikatorleistung: eine kohärente Alternative zum Bereich unter der ROC-Kurve , Machine Learning (2009) 77: 103–123.

— Chl

Das war das, wonach ich gesucht habe - ja, das war das wichtigste erste Papier zu diesem Thema (obwohl ich denke, dass es sich folglich an ein eher technisches Publikum richtet als einige der späteren Papiere).

— Corone

AUC (C-Index) hat den Vorteil, dass die von Ihnen angegebene Konkordanzwahrscheinlichkeit abgesehen von Kosten- / Nutzenüberlegungen gemessen werden kann. Unter dem Strich sollte die AUC verwendet werden, um die Unterscheidung eines Modells zu beschreiben, nicht, um zwei Modelle zu vergleichen. Zum Vergleich müssen wir das mächtigste Maß verwenden: Abweichung und die von Abweichung abgeleiteten Dinge: verallgemeinertes und AIC.

R^{2}

$R^2$

— Frank Harrell

Die Antwort von Corone verwirrt mich. Ich dachte, dass AIC nichts mit der prädiktiven Leistung eines Modells zu tun hat und dass es nur ein Maß für die Wahrscheinlichkeit ist, dass die Daten mit der Komplexität des Modells in Konflikt geraten.

— Zhubarb

@ Berkan nicht sicher, was Sie mit "nichts mit prädiktiver Leistung zu tun" meinen, es sei denn, Sie meinen einfach, es handelt sich um eine In-Sample-Messung, nicht um eine Out-of-Sample-Messung? (Je höher die Wahrscheinlichkeit, desto besser "prognostiziert" es diese Datenpunkte). Der Punkt ist, dass AIC für eine bestimmte, vorgewählte Wahrscheinlichkeitsfunktion ist, wohingegen der AIC ein Durchschnitt über eine Menge von ihnen ist. Wenn Sie die Wahrscheinlichkeit (dh Schwelle, Kosten, Prävalenz ...) kennen, können Sie AIC verwenden.

— Corone

Das zitierte Hand Paper hat keine Grundlage für die praktische Anwendung in der klinischen Diagnostik. Er hat eine theoretische Kurve mit einer AUC von 0,5, die stattdessen ein perfekter Klassifikator ist. Er verwendet einen einzigen Satz von Daten aus der realen Welt, bei denen die Modelle aus der Hand geworfen würden, da sie so schlecht sind und die Konfidenzintervalle um die Messungen (Daten nicht bereitgestellt, aber abgeleitet) wahrscheinlich zufällig sind . In Anbetracht des Mangels an realen (oder sogar plausiblen) Simulationsdaten handelt es sich um ein leeres Papier. Ich persönlich war an der Analyse von Tausenden von Klassifikatoren unter Tausenden von Patienten (mit ausreichenden Freiheitsgraden) beteiligt. In diesem Zusammenhang sind seine Argumente unsinnig.

Er ist auch anfällig für Superlative (in keinem Zusammenhang ein gutes Zeichen) und macht nicht unterstützte Verallgemeinerungen, z. B. können die Kosten nicht bekannt sein. In der Medizin werden Kosten akzeptiert, beispielsweise ein positiver Vorhersagewert von 10% für Screening-Tests und 100.000 USD pro qualitätsbereinigtem Lebensjahr für therapeutische Interventionen. Es fällt mir schwer zu glauben, dass die Kosten beim Kredit-Scoring nicht gut verstanden werden. Wenn er (unklar) sagt, dass verschiedene einzelne falsche Positive und falsche Negative unterschiedliche Kosten verursachen, obwohl dies ein sehr interessantes Thema ist, ähnelt es nicht binäre Klassifikatoren.

Wenn es ihm darum geht, dass die ROC-Form eine Rolle spielt, dann ist dies für erfahrene Benutzer offensichtlich, und unerfahrene Benutzer haben noch viel mehr zu befürchten, z. B. das Einbeziehen der Prävalenz in positive und negative Vorhersagewerte.

Schließlich verstehe ich nicht, wie verschiedene Klassifikatoren auf der Grundlage der verschiedenen Grenzwerte, die durch die klinische (oder finanzielle) Verwendung der Modelle festgelegt werden, nicht beurteilt werden können. Offensichtlich würden für jedes Modell unterschiedliche Abschneidewerte gewählt. Die Modelle würden nicht nur auf AUC-Basis verglichen. Die Klassifikatoren spielen keine Rolle, aber die Form der Kurve.

— user162905
quelle

-1

Für mich ist das Fazit, dass die C-Statistik (AUC) zwar problematisch sein kann, wenn Modelle mit verschiedenen unabhängigen Variablen verglichen werden (analog zu dem, was Hand als "Klassifikatoren" bezeichnet), aber in anderen Anwendungen immer noch nützlich ist. Zum Beispiel Validierungsstudien, bei denen das gleiche Modell über verschiedene Studienpopulationen (Datensätze) hinweg verglichen wird. Wenn sich herausstellt, dass ein Modell oder ein Risikoindex / Score in einer Population, aber nicht in anderen, stark diskriminierend ist, kann dies bedeuten, dass es sich im Allgemeinen nicht um ein sehr gutes Instrument handelt, sondern in bestimmten Fällen.

— Dave
quelle

Der C-Index ist im Allgemeinen zu unempfindlich, um für den Vergleich verschiedener Modelle verwendet zu werden. Ich würde normalerweise die verallgemeinerten oder andere abweichungsbasierte Maßnahmen einschließlich AIC verwenden. Und beachten Sie, dass AIC nicht mit Klassifizierung / Cutpoints zusammenhängt.

R^{2}

$R^2$

— Frank Harrell