So generieren Sie ROC-Kurven (= Receiver Operating Characteristic Curves):
Angenommen, wir haben einen probabilistischen, binären Klassifikator wie die logistische Regression. Vor der Darstellung der ROC-Kurve muss das Konzept der Verwirrungsmatrix verstanden werden. Wenn wir eine binäre Vorhersage machen, kann es 4 Arten von Fehlern geben:
- Wir sagen 0 voraus, während die Klasse eigentlich 0 sein sollte: Dies wird als wahres Negativ bezeichnet , dh wir sagen richtig voraus, dass die Klasse negativ ist (0). Ein Virenschutzprogramm hat beispielsweise keine harmlose Datei als Virus erkannt.
- Wir sagen 0 voraus, während die Klasse eigentlich 1 sein sollte: Dies wird False Negative genannt , dh wir sagen fälschlicherweise voraus, dass die Klasse negativ ist (0). Ein Virenschutzprogramm konnte beispielsweise keinen Virus erkennen.
- Wir sagen 1 voraus, während die Klasse eigentlich 0 sein sollte: Dies wird als falsch positiv bezeichnet , dh wir sagen fälschlicherweise voraus, dass die Klasse positiv ist (1). Ein Virenschutzprogramm beispielsweise betrachtet eine harmlose Datei als Virus.
- Wir sagen 1 voraus, während die Klasse eigentlich 1 sein sollte: Dies wird als True Positive bezeichnet , dh wir sagen korrekt voraus, dass die Klasse positiv ist (1). Ein Virenschutzprogramm hat beispielsweise einen Virus zu Recht erkannt.
Um die Verwirrungsmatrix zu erhalten, gehen wir alle vom Modell gemachten Vorhersagen durch und zählen, wie oft jeder dieser vier Fehlertypen auftritt:
In diesem Beispiel einer Verwirrungsmatrix werden von den 50 klassifizierten Datenpunkten 45 korrekt klassifiziert und die 5 falsch klassifiziert.
Da es für den Vergleich zweier verschiedener Modelle oft praktischer ist, eine einzige Metrik anstelle mehrerer zu haben, berechnen wir zwei Metriken aus der Verwirrungsmatrix, die wir später zu einer kombinieren werden:
0,00 ; 0,01 , 0,02 , … , 1,00
In dieser Abbildung entspricht der blaue Bereich dem Bereich unter der Kurve der Empfänger-Betriebskennlinie (AUROC). Die gestrichelte Linie in der Diagonale zeigt die ROC-Kurve eines zufälligen Prädiktors: Sie hat eine AUROC von 0,5. Der zufällige Prädiktor wird üblicherweise als Basis verwendet, um festzustellen, ob das Modell nützlich ist.
Wenn Sie Erfahrungen aus erster Hand sammeln möchten: