Klassifizierungs- / Bewertungsmetriken für stark unausgeglichene Daten

22

Ich beschäftige mich mit einem (kreditbewertungsähnlichen) Problem der Betrugserkennung. Insofern besteht ein sehr unausgewogenes Verhältnis zwischen betrügerischen und nicht betrügerischen Beobachtungen.

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html bietet einen hervorragenden Überblick über verschiedene Klassifizierungsmetriken. Precision and Recalloder kappabeide scheinen eine gute Wahl zu sein:

Eine Möglichkeit, die Ergebnisse solcher Klassifikatoren zu rechtfertigen, besteht darin, sie mit denen von Basisklassifikatoren zu vergleichen und zu zeigen, dass sie tatsächlich besser sind als zufällige Zufallsvorhersagen.

Soweit ich weiß, kappakönnte hier die etwas bessere Wahl sein, da zufällige Zufälle berücksichtigt werden. Aus Cohens Kappa in einfachem Englisch verstehe ich, dass es kappasich um das Konzept des Informationsgewinns handelt:

[...] eine beobachtete Genauigkeit von 80% ist mit einer erwarteten Genauigkeit von 75% viel weniger beeindruckend als mit einer erwarteten Genauigkeit von 50% [...]

Daher wären meine Fragen:

Ist es richtig anzunehmen kappa, eine besser geeignete Klassifizierungsmetrik für dieses Problem zu sein?
kappaVerhindert die einfache Verwendung die negativen Auswirkungen eines Ungleichgewichts auf den Klassifizierungsalgorithmus? Ist noch eine erneute Stichprobenerhebung (Down / Up) oder kostenbasiertes Lernen (siehe http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf ) erforderlich?

— Georg Heiler
quelle

Das Hoch- und Runter-Abtasten Ihrer Daten ist etwas, das Sie tun sollten, wenn Ihre Daten durch Trainingsdaten aus dem Gleichgewicht gebracht werden, und kann manchmal dazu beitragen, dass Klassifizierer die Minderheitsklassen nicht ignorieren. Es ist unangemessen (und ein wenig betrügerisch), erneut abgetastete Daten für die Auswertung Ihres Klassifikators zu verwenden. Sie werden eine Leistung melden, die Ihr Klassifikator nicht aufweist, wenn sie auf eine Probe angewendet wird, die identisch mit Ihren ursprünglichen Testdaten verteilt ist.

— user48956

Related: stats.stackexchange.com/questions/284515/…

— Anton Tarasenko

10

Ja, Ihre Vermutungen zu Kappa scheinen in etwa richtig zu sein. Kappa als einzelne skalare Metrik ist meistens von Vorteil gegenüber anderen einzelnen skalaren Metriken wie der Genauigkeit, die die Prognoseleistung kleinerer Klassen (im Schatten der Leistung einer viel größeren Klasse) nicht widerspiegeln. Kappa löst dieses Problem eleganter, wie Sie betont haben.

Wenn Sie eine Metrik wie Kappa verwenden, um Ihre Leistung zu messen, wird die Anpassung Ihres Modells an die Daten nicht unbedingt verbessert. Sie können die Leistung jedes Modells anhand einer Reihe von Metriken messen. Wie das Modell Daten anpasst, wird jedoch anhand anderer Parameter (z. B. Hyperparameter) bestimmt. Sie können beispielsweise Kappa verwenden, um einen am besten geeigneten Modelltyp und eine Hyperparametrisierung aus mehreren Optionen für Ihr sehr unausgewogenes Problem auszuwählen. Die Berechnung von Kappa selbst ändert jedoch nichts an der Anpassung Ihres Modells an Ihre unausgewogenen Daten.

Für verschiedene Metriken: Sehen Sie sich neben Kappa und Präzision / Abruf auch die echten positiven und echten negativen Raten TPR / TNR- und ROC-Kurven sowie den Bereich unter der Kurve AUC an. Welche davon für Ihr Problem nützlich sind, hängt hauptsächlich von den Details Ihres Ziels ab. Zum Beispiel die unterschiedlichen Informationen, die sich in TPR / TNR und Präzision / Rückruf widerspiegeln: Ihr Ziel ist es, einen hohen Anteil von Betrügereien als solche und einen hohen Anteil von legitimen Transaktionen als solche zu erkennen und / oder den Anteil zu minimieren von Fehlalarmen (die Sie natürlich mit solchen Problemen "en mass" bekommen) in allen Alarmen?

Für Up- / Downsampling: Ich denke, es gibt keine kanonische Antwort auf "wenn diese benötigt werden". Sie sind eher eine Möglichkeit, Ihr Problem anzupassen. Technisch gesehen: Ja, Sie könnten sie verwenden, aber Sie sollten vorsichtig vorgehen, insbesondere beim Upsampling (möglicherweise werden unrealistische Samples erstellt, ohne dass dies bemerkt wird) msgstr "könnte sich ebenfalls negativ auf die Prognoseleistung auswirken. Zumindest das endgültige, durchgehaltene Testset sollte die tatsächliche Häufigkeit der Proben wiedergeben. Fazit: Ich habe beide Fälle gesehen, in denen das Durchführen und Nichtdurchführen von Up- / Downsampling zu besseren Endergebnissen führte. Dies ist also etwas, das Sie möglicherweise ausprobieren müssen (aber nicht Ihre Test-Sets manipulieren!). .

— Geekoverdose
quelle

Aber ist ein kostenbasierter Ansatz wie DOI 10.1109 / ICMLA.2014.48 besser geeignet, da die gesamten geschäftlichen Auswirkungen berücksichtigt werden?

— Georg Heiler

15

Neben der AUC und Kohonens Kappa, die bereits in den anderen Antworten besprochen wurden, möchte ich auch einige Metriken hinzufügen, die ich für unausgeglichene Daten als nützlich erachtet habe. Sie beziehen sich beide auf Präzision und Rückruf . Denn durch die Mittelung dieser erhalten Sie eine Metrik mit und beiden Arten von Fehlern ( und ): $TP$ $FP$ $FN$

F1-Punktzahl , die das harmonische Mittel für Präzision und Erinnerung ist .
G-Maß , das das geometrische Mittel für Präzision und Erinnerung ist . Im Vergleich zu F1 habe ich es für unausgeglichene Daten etwas besser gefunden.
Jaccard-Index , den Sie sich als . Dies ist eigentlich die Metrik, die für mich am besten funktioniert hat. $TP / (TP + FP + FN)$

Hinweis: Bei unausgeglichenen Datasets ist es am besten, dass Ihre Metriken einen Makromittelwert haben .

— Johnson
quelle

1

Was meinen Sie mit "besser", wenn Sie sich auf G-Measure und den Jaccard-Index beziehen?

— Narfanar

8

Bei unausgeglichenen Datensätzen ist die Metrik "Average Precision" manchmal eine bessere Alternative zur AUROC. Der AP-Score ist der Bereich unter der Präzisionsrückrufkurve.

Hier ist eine Diskussion mit etwas Code (Python)

Hier ist ein Papier .

Siehe auch Peter Flachs Precision-Recall-Gain-Kurven , zusammen mit einer Diskussion über das Manko von AP-Kurven.

— user48956
quelle