Messung der Leistung verschiedener Klassifikatoren mit unterschiedlichen Stichprobengrößen


12

Ich verwende derzeit mehrere verschiedene Klassifizierer für verschiedene Entitäten, die aus Text extrahiert wurden, und verwende Präzision / Rückruf als Zusammenfassung der Leistung jedes einzelnen Klassifizierers für ein bestimmtes Dataset.

Ich frage mich, ob es eine sinnvolle Möglichkeit gibt, die Leistung dieser Klassifizierer auf ähnliche Weise zu vergleichen, die aber auch die Gesamtzahl der einzelnen Entitäten in den zu klassifizierenden Testdaten berücksichtigt.

Momentan verwende ich Präzision / Rückruf als Maß für die Leistung, könnte also so etwas haben wie:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

Der Datensatz, auf dem ich diese Dateien ausführe, kann jedoch 100.000 Personen, 5.000 Unternehmen, 500 Käsesorten und 1 Ei enthalten.

Gibt es also eine zusammenfassende Statistik, die ich der obigen Tabelle hinzufügen kann und die auch die Gesamtzahl der einzelnen Artikel berücksichtigt? Oder gibt es eine Möglichkeit, die Tatsache zu messen, dass z. B. 100% vor / nach dem Ei-Klassifikator bei nur einem Datenelement möglicherweise keine Bedeutung hat?

Nehmen wir an, wir hatten Hunderte solcher Klassifikatoren. Ich suche nach einer guten Möglichkeit, um Fragen wie "Welche Klassifikatoren sind schlechter als erwartet? Welche Klassifikatoren haben nicht genügend Testdaten, um festzustellen, ob sie schlechter als erwartet sind?" Zu beantworten.


Wenn Sie verschiedene Klassifikatoren für verschiedene Datensätze trainiert haben, wie können Sie diese auf sinnvolle Weise vergleichen? Äpfel und Orangen, Kreide und Käse kommen mir in den Sinn. Wie berechnen Sie die Genauigkeit und den Rückruf, wenn Sie über Klassifikatoren für mehrere Klassen verfügen? Selbst wenn Sie wissen, dass N = 1 ist, ist dies nicht unbedingt hilfreich. Wenn es nur ein Ei auf der Welt gibt, ist Ihr Eierklassifikator in Ordnung.
Bull

Es handelt sich um verschiedene Klassifikatoren, die mit denselben Datensätzen trainiert wurden. Wir wissen beispielsweise, dass es sich um ein Dokument über Äpfel und Orangen handelt. Daher führen wir einen Apfelklassifikator durch, um die betreffende Apfelsorte zu bestimmen, und einen Orangensortierer, um die Orangensorte zu bestimmen es redet über. Wenn sich unsere Dokumente zu 99% auf Äpfel und zu 1% auf Orangen beziehen und beide Klassifikatoren die gleiche Vor / Zurück-Zahl aufweisen (Summierung von Zeilen / Spalten über die Verwirrungsmatrix), können wir Informationen vorlegen, die die Mengenunterschiede der einzelnen Elemente berücksichtigen ? (Es könnte sein, dass es keine gibt, was eine Antwort ist, mit der ich glücklich sein würde)
Dave Challis

Antworten:


5

Sie müssen sich das Konfidenzintervall der Statistik ansehen. Dies hilft zu messen, wie viel Unsicherheit in der Statistik vorliegt, was weitgehend von der Stichprobengröße abhängt.


2

Meiner Meinung nach ist es schwierig, die Leistung zu vergleichen, wenn der Größenunterschied so groß ist. Unter diesem Link ( siehe Wikipedia unter http://en.wikipedia.org/wiki/Effect_size ) sehen Sie möglicherweise verschiedene Strategien.

Die, die ich vorschlage, hängt mit der Varianz zusammen. Betrachten Sie beispielsweise die Leistung des Klassifikators (100%) und des Personenklassifikators (65%). Der minimale Fehler, den Sie mit dem früheren Klassifikator begehen, beträgt 100%. Der minimale Fehler, den Sie mit dem letzteren Klassifikator festschreiben können, ist jedoch 10e-5.

Eine Möglichkeit, einen Klassifikator zu vergleichen, besteht darin, diese Dreierregel ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) zu beachten, mit der Sie die Leistung und ihre Variabilität vergleichen können.

Eine andere Möglichkeit ist F-Measure , eine Kombination aus Präzision und Rückruf, und es ist irgendwie unabhängig von der Effektgröße.


2

Die Anzahl der Daten in der Klasse wird manchmal als die supportdes Klassifikators bezeichnet. Es gibt an, wie sehr Sie Ihrem Ergebnis vertrauen können, so wie ein p-Wert es Ihnen ermöglichen würde, einem Test zu vertrauen oder ihm zu misstrauen.

Ein Ansatz, den Sie verwenden können, besteht darin, mehrere Kennzahlen für die Klassifikatorleistung zu berechnen, und zwar nicht nur die Genauigkeit und den Abruf, sondern auch die wahre positive Rate, die falsche positive Rate, die Spezifität, die Sensitivität, die positive Wahrscheinlichkeit, die negative Wahrscheinlichkeit usw., und zu prüfen, ob sie miteinander übereinstimmen . Wenn eine der Maßnahmen maximal ist (100%) und die andere nicht, ist dies meiner Erfahrung nach häufig ein Hinweis auf einen Fehler (z. B. schlechte Unterstützung, trivialer Klassifikator, voreingenommener Klassifikator usw.). Auf dieser Seite finden Sie eine Liste der Leistungskennzahlen für Klassifizierer.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.