Auswahl zwischen Verlustfunktionen für die binäre Klassifizierung

Ich arbeite in einem Problembereich, in dem häufig ROC-AUC oder AveP (Average Precision) gemeldet werden . Kürzlich habe ich jedoch Papiere gefunden, die stattdessen Log Loss optimieren , während andere über Hinge Loss berichten .

Während ich verstehe, wie diese Metriken berechnet werden, fällt es mir schwer , die Kompromisse zwischen ihnen zu verstehen , und was genau gut ist.

Wenn es um ROC-AUC oder Precision-Recall geht, wird in diesem Thread diskutiert, wie die ROC-AUC-Maximierung als Verwendung eines Verlustoptimierungskriteriums angesehen werden kann, bei dem "ein echtes Negativ mindestens so groß wie ein echtes Positiv" eingestuft wird (vorausgesetzt, dass es höher ist) Punktzahlen entsprechen positiven Werten). Auch dieser andere Thread bietet auch eine hilfreiche Diskussion des ROC-AUC im Gegensatz zu Precision-Recall - Metriken.

Bei welcher Art von Problemen wird jedoch der Protokollverlust gegenüber beispielsweise ROC-AUC , AveP oder dem Scharnierverlust bevorzugt ? Was für Fragen sollte man sich zu dem Problem stellen, wenn man zwischen diesen Verlustfunktionen für die binäre Klassifizierung wählt?

loss-functions

— Josh
quelle

Der Stand der Technik zu diesem Thema ist [1]. Im Wesentlichen zeigt es, dass alle von Ihnen angegebenen Verlustfunktionen mit hohen Raten zum Bayes-Klassifikator konvergieren.

Die Auswahl zwischen diesen für endliche Stichproben kann durch verschiedene Argumente gesteuert werden:

Wenn Sie Ereigniswahrscheinlichkeiten (und nicht nur Klassifikationen) wiederherstellen möchten, ist der logistische Protokollverlust oder ein anderes verallgemeinertes lineares Modell (Probit-Regression, Komplementär-Protokoll-Regression, ...) ein natürlicher Kandidat.
Wenn Sie nur die Klassifizierung anstreben, ist SVM möglicherweise die bevorzugte Wahl, da es nur Beobachtungen auf die Klassifizierungsgrenze zielt und entfernte Beobachtungen ignoriert, wodurch die Auswirkungen der Wahrhaftigkeit des angenommenen linearen Modells gemildert werden.
Wenn Sie nicht viele Beobachtungen haben, kann der Vorteil in 2 ein Nachteil sein.
Es kann rechnerische Unterschiede geben: sowohl in Bezug auf das angegebene Optimierungsproblem als auch in Bezug auf die von Ihnen verwendete Implementierung.
Fazit: Sie können einfach alle ausprobieren und den besten Darsteller auswählen.

[1] Bartlett, Peter L., Michael I. Jordan und Jon D. McAuliffe. "Konvexität, Klassifizierung und Risikobegrenzung". Journal of the American Statistical Association 101, No. 473 (März 2006): 138–56. doi: 10.1198 / 016214505000000907.

— JohnRos
quelle