Wie interpretiere ich eine ROC-Kurve?


13

Ich habe die logistische Regression auf meine SAS-Daten angewendet. Hier sind die ROC-Kurve und die Klassifizierungstabelle.

Bildbeschreibung hier eingeben

Ich bin mit den Zahlen in der Klassifikationstabelle einverstanden, weiß aber nicht genau, wie die ROC-Kurve und die Fläche darunter aussehen. Jede Erklärung wäre sehr dankbar.

Antworten:


20

Wenn Sie eine logistische Regression durchführen, erhalten Sie zwei Klassen, die mit und 0 codiert sind . Nun berechnen Sie Wahrscheinlichkeiten, die bei einigen erklärenden Varialben einer Person zu der mit 1 codierten Klasse gehören . Wenn Sie jetzt einen Wahrscheinlichkeitsschwellenwert auswählen und alle Personen mit einer Wahrscheinlichkeit, die diesen Schwellenwert überschreitet, als Klasse 1 und darunter als 0 klassifizieren10110In den meisten Fällen werden Sie einige Fehler machen, da normalerweise zwei Gruppen nicht perfekt unterschieden werden können. Für diese Schwelle können Sie nun Ihre Fehler und die sogenannte Sensitivität und Spezifität berechnen. Wenn Sie dies für viele Schwellenwerte tun, können Sie eine ROC-Kurve erstellen, indem Sie die Empfindlichkeit für viele mögliche Schwellenwerte gegen die 1-Spezifität zeichnen. Der Bereich unter der Kurve bietet sich an, wenn Sie verschiedene Methoden vergleichen möchten, die versuchen, zwischen zwei Klassen zu unterscheiden, z. B. Diskriminanzanalyse oder ein Probit-Modell. Sie können die ROC-Kurve für alle diese Modelle erstellen, und das Modell mit der höchsten Fläche unter der Kurve wird als das beste Modell angesehen.

Wenn Sie ein tieferes Verständnis benötigen, können Sie auch die Antwort auf eine andere Frage zu ROC-Kurven lesen, indem Sie hier klicken .


Wie unterscheidet sich die Fläche unter der ROC-Kurve von der korrekten Rate in der Klassifikationstabelle?
Günal

2
Die Tabelle zeigt nur die korrekten und nicht korrekten Werte für einen Schwellenwert. Die AUROC-Kurve ist jedoch ein Maß für die vollständige Klassifizierungsmethode und für die Richtigkeit und Nicht-Richtigkeit bei vielen verschiedenen Schwellenwerten.
random_guy

Schön das zu hören!
random_guy

6

Die AUC gibt lediglich an, wie oft eine zufällige Auslosung Ihrer vorhergesagten Antwortwahrscheinlichkeiten auf Ihre mit 1 gekennzeichneten Daten größer ist als eine zufällige Auslosung Ihrer vorhergesagten Antwortwahrscheinlichkeiten auf Ihre mit 0 gekennzeichneten Daten.


6

Das logistische Regressionsmodell ist eine direkte Wahrscheinlichkeitsschätzmethode. Die Klassifizierung sollte bei ihrer Verwendung keine Rolle spielen. Jede Klassifizierung, die sich nicht auf die Bewertung der Versorgungsleistungen (Verlust- / Kostenfunktion) für einzelne Themen stützt, ist unangemessen, es sei denn, es handelt sich um ganz besondere Notfälle. Die ROC-Kurve ist hier nicht hilfreich; Es gibt auch keine Sensitivität oder Spezifität, die wie die allgemeine Klassifikationsgenauigkeit unangemessene Genauigkeitsbewertungsregeln sind, die durch ein Scheinmodell optimiert werden, das nicht durch die Maximum-Likelihood-Schätzung angepasst wird.

c15pYp0,05


@Frank Harrell: Könnten Sie die Berechnung bezüglich des Abschnitts sowie den Kommentar bezüglich der Fehlerspanne näher erläutern? Vielen Dank!
2.

@FrankHarrell Trifft Ihr Rat, dass wir mindestens 15p Beobachtungen benötigen, zu, wenn wir am Ende eine Gratregression durchführen, um das Modell zu kalibrieren? Mein Verständnis ist, dass wir p dann durch die effektive Dimensionalität ersetzen.
Lepidopterist

Richtig, und ich würde sagen, dass Sie eine Strafe wie eine quadratische Strafe verwenden, um die Parameter abzuschätzen, was zu einer besseren Kalibrierung führt
Frank Harrell,

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.