Ich denke, Sie sollten auf jeden Fall mehr Metriken als nur AUC und Genauigkeit untersuchen.
Die Genauigkeit (zusammen mit Sensitivität und Spezifität) ist eine sehr einfache, aber voreingenommene Metrik, die Sie dazu zwingt, das absolute Vorhersageergebnis zu betrachten, und die nicht für die Behauptung von Klassenwahrscheinlichkeiten oder Rangfolgen offen ist. Es wird auch nicht die Grundgesamtheit berücksichtigt, die zu Fehlinterpretationen als Modell führt, das eine Genauigkeit von 95% für eine Grundgesamtheit mit einer Wahrscheinlichkeit von 95% für zufällige Korrekturen ergibt. Dies ist kein wirklich gutes Modell, selbst wenn die Genauigkeit hoch ist.
Die AUC ist eine gute Metrik zur Bestätigung der Modellgenauigkeit, die unabhängig von den Wahrscheinlichkeiten der Populationsklassen ist. Es wird Ihnen jedoch nichts darüber sagen, wie gut die Wahrscheinlichkeitsschätzungen tatsächlich sind. Sie könnten eine hohe AUC erzielen, haben aber immer noch sehr verzerrte Wahrscheinlichkeitsschätzungen. Diese Metrik ist diskriminierender als die Genauigkeit und bietet definitiv bessere Modelle, wenn sie in Kombination mit einer geeigneten Bewertungsregel verwendet wird, z. B. dem Brier-Score, wie in einem anderen Beitrag erwähnt.
Sie können hier einen formelleren Beweis erhalten, obwohl dieses Papier ziemlich theoretisch ist: AUC: eine statistisch konsistente und diskriminierendere Maßnahme als die Genauigkeit
Es gibt jedoch eine Reihe guter Metriken.
Verlustfunktionen für die Schätzung und Klassifizierung der Wahrscheinlichkeit von Binärklassen: Struktur und Anwendungen sind ein gutes Papier, in dem die richtigen Bewertungsregeln wie der Brier-Score untersucht werden.
Ein weiteres interessantes Papier mit Metriken zur Bestätigung der Modellleistung ist die Bewertung: Von Präzision, Rückruf und F-Messung bis hin zu ROC, Informiertheit, Markiertheit und Korrelation, wobei andere gute Leistungsmetriken wie Informiertheit berücksichtigt werden.
Zusammenfassend würde ich empfehlen, die AUC / Gini- und Brier-Punktzahl zu betrachten, um die Modellleistung zu bestätigen. Abhängig vom Ziel Ihres Modells passen andere Metriken möglicherweise besser zu Ihrem Problem.