Was ist das beste Maß für ein unausgeglichenes Klassifizierungsproblem mit mehreren Klassen?


8

Was sind mögliche Klassifizierungsmetriken für ein unausgeglichenes Problem? Aufgrund der Schiefe der Verteilung ist der Genauigkeitswert nicht so aussagekräftig. Wenn ich zum Beispiel alle Klassen bis Klasse 1 vorhersage, könnte ich immer noch eine Genauigkeit von 70% erreichen.


Was ist mit dem Durchschnittswert der diagonalen Einträge der Verwirrungsmatrix?
Sobi

Dies beinhaltet kein Klassenungleichgewicht.
Archie

Antworten:


3

Ich entschuldige mich, habe gerade gesehen, wie alt die Frage war - warum stand sie ganz oben auf der Liste?

Antwort (was mit begrenzten Informationen so gut ist wie es nur geht):

Von welcher Art sind die Daten?

Sie sollten wahrscheinlich niemals die Erkennungsgenauigkeit verwenden oder schon gar nicht, wenn Ihr Klassifikator eine Punktzahl oder Wahrscheinlichkeit ausgibt. Wie klassifizierst du? Die zugrunde liegende Verlustfunktion Ihres Klassifizierungsalgorithmus ist normalerweise ein gutes Maß für die Bewertungsleistung.

Ich würde mich nicht zu allen analytischen Ansätzen wie der Präzisionsrückrufkurve (n) neigen. Es wird Sie nicht sehr weit bringen - Sie müssten jede Klasse gegen alle anderen testen und diese Ergebnisse dann irgendwie kombinieren. Harmonischer Mittelwert, a-priori-Wahrscheinlichkeit für die zu testende Klasse, ...? Es ist unklar, was diese Maßnahmen Ihnen tatsächlich sagen werden.

Wenn Sie eine probabilistische Ausgabe haben, ist die negative Log-Wahrscheinlichkeit ein guter Anfang.

Wenn Sie bereits eine Genauigkeit von 70% für Klasse 1 haben, was bedeutet, dass 70% Ihres Datensatzes Klasse 1 sind, befinden Sie sich möglicherweise in der Situation, dass Ihr Klassifizierer einige kleinere Klassen aufgibt und eher versucht, einen möglichen Regularisierungsterm zu erfüllen. Dies hängt jedoch wirklich von Ihrem Klassifizierungsschema ab. Wenn Sie eine klarere Antwort wünschen, müssen Sie uns die ganze Geschichte erzählen. ;)


1
Mach dir keine Sorgen darüber, wie alt die Frage ist. Diese Site versucht, ein Repository mit guten Antworten auf Fragen zu erstellen, das über die unmittelbaren Bedürfnisse des ursprünglichen Fragestellers hinausgeht. Das System baggert alte Fragen etwa einmal pro Stunde unter dem Benutzer "Community" an den Anfang der Warteschlange. Wenn das in diesem Fall passiert ist, hat es seinen Zweck gut erfüllt, da Ihre Antwort meiner Meinung nach viel besser ist als die, die vor 9 Monaten veröffentlicht wurde.
EdM

Würden Sie eine gewichtete AUC empfehlen?
Archie

0

Probieren Sie den F1-Score , der Präzision und Erinnerung in Einklang bringt.

Die Präzision kann berechnet werden durch die Anzahl der echten Positiven geteilt durch die Gesamtzahl der Positiven und den Rückruf durch die Anzahl der echten Positiven geteilt durch die Gesamtzahl der Elemente, die tatsächlich zur positiven Klasse gehören. Diese werden mit einem harmonischen Mittelwert gewichtet.


1
Wie wäre es mit einem Problem der Klassifizierung mehrerer Klassen? Sollten wir einen F1-Score pro Klasse berechnen
Seeda

Sie sollten Micro F1 für unsymmetrische Multiklassen ausprobieren.
CKM
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.