Ich verwende derzeit mehrere verschiedene Klassifizierer für verschiedene Entitäten, die aus Text extrahiert wurden, und verwende Präzision / Rückruf als Zusammenfassung der Leistung jedes einzelnen Klassifizierers für ein bestimmtes Dataset.
Ich frage mich, ob es eine sinnvolle Möglichkeit gibt, die Leistung dieser Klassifizierer auf ähnliche Weise zu vergleichen, die aber auch die Gesamtzahl der einzelnen Entitäten in den zu klassifizierenden Testdaten berücksichtigt.
Momentan verwende ich Präzision / Rückruf als Maß für die Leistung, könnte also so etwas haben wie:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Der Datensatz, auf dem ich diese Dateien ausführe, kann jedoch 100.000 Personen, 5.000 Unternehmen, 500 Käsesorten und 1 Ei enthalten.
Gibt es also eine zusammenfassende Statistik, die ich der obigen Tabelle hinzufügen kann und die auch die Gesamtzahl der einzelnen Artikel berücksichtigt? Oder gibt es eine Möglichkeit, die Tatsache zu messen, dass z. B. 100% vor / nach dem Ei-Klassifikator bei nur einem Datenelement möglicherweise keine Bedeutung hat?
Nehmen wir an, wir hatten Hunderte solcher Klassifikatoren. Ich suche nach einer guten Möglichkeit, um Fragen wie "Welche Klassifikatoren sind schlechter als erwartet? Welche Klassifikatoren haben nicht genügend Testdaten, um festzustellen, ob sie schlechter als erwartet sind?" Zu beantworten.