Was ist der richtige Weg, um die Signifikanz von Klassifizierungsergebnissen zu testen?

21

Es gibt viele Situationen, in denen Sie möglicherweise mehrere verschiedene Klassifizierer trainieren oder verschiedene Methoden zum Extrahieren von Features verwenden. In der Literatur geben Autoren häufig den mittleren Klassifizierungsfehler über eine Reihe von zufälligen Teilungen der Daten an (dh nach einer doppelt verschachtelten Kreuzvalidierung) und geben manchmal auch Abweichungen über den Fehler über die Teilungen an. Dies allein reicht jedoch nicht aus, um zu sagen, dass ein Klassifikator signifikant besser ist als ein anderer. Ich habe viele verschiedene Ansätze gesehen - mit Chi-Quadrat-Tests, T-Tests, ANOVA mit Post-Hoc-Tests usw.

Mit welcher Methode sollte die statistische Signifikanz bestimmt werden? Dieser Frage liegt folgende Frage zugrunde: Welche Annahmen sollten wir hinsichtlich der Verteilung der Klassifizierungswerte treffen?

classification statistical-significance

— tdc
quelle

2

Könnten Sie Beispielpapiere posten mit: "Ich habe viele verschiedene Ansätze gesehen - mit Chi-Quadrat-Tests, T-Test, ANOVA mit Post-Hoc-Tests usw."? Das interessiert mich wirklich.

— jb.

1

@jb sieh dir das an: cmpe.boun.edu.tr/~ethem/i2ml/slides/v1-1/i2ml-chap14-v1-1.pdf

— Dov

8

Lassen Sie mich zur hervorragenden Antwort von @ jb. Hinzufügen, dass Sie den McNemar- Test für denselben Testsatz verwenden können, um festzustellen, ob ein Klassifikator signifikant besser als der andere ist. Dies funktioniert nur bei Klassifizierungsproblemen (was McNemars ursprüngliche Arbeit als "dichotome Eigenschaft" bezeichnet), was bedeutet, dass die Klassifizierer entweder richtig oder falsch verstehen, kein Leerzeichen in der Mitte.

— carlosdc
quelle

Was ist mit dem Szenario, in dem der Klassifikator bestehen kann? Wie es heißt, weiß es nicht. Können Sie dann noch McNemars Test verwenden?

— S0rin

5

Da es sich bei der Verteilung von Klassifizierungsfehlern um eine Binärverteilung handelt (entweder gibt es eine Fehlklassifizierung oder es gibt keine), würde ich sagen, dass die Verwendung von Chi-Quadrat nicht sinnvoll ist.

Es ist auch nur sinnvoll, die Effizienz von Klassifizierern zu vergleichen, die mit denselben Datensätzen arbeiten. Der Satz „Kein freies Mittagessen“ besagt, dass alle Modelle über alle Datensätze die gleiche durchschnittliche Effizienz aufweisen. Welches Modell also besser aussieht, hängt nur von den jeweiligen Datensätzen ab gewählt, um sie zu trainieren http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .

Wenn Sie die Effizienz der Modelle A und B mit dem Datensatz D vergleichen, reicht meiner Meinung nach die durchschnittliche Effizienz + der Mittelwert aus, um eine Auswahl zu treffen.

Wenn man viele Modelle hat, die eine vernünftige Effizienz haben (und linear unabhängig voneinander sind), würde ich lieber ein Ensemblemodell bauen, als einfach das beste Modell zu wählen.

— jb.
quelle

Für einen einzelnen Klassifikator erhalten Sie jedoch eine Reihe von Bewertungen (z. B. MSE über 100 Teilungen), die beispielsweise im Bereich [0,1] liegen können. Ich denke, es wäre viel zu teuer, die Ergebnisse jedes einzelnen Laufs zu analysieren.

— tdc

Ja. Aber in diesem Fall reicht mean + stddev aus, um zu testen, ob eines deutlich besser als das andere ist, genau wie bei jeder anderen Messung.

— jb.

2

Ich bin mir nicht sicher. Mean & stddev geht zunächst von Gauß aus, und zweitens wird dabei nicht berücksichtigt, wie viele Vergleiche durchgeführt werden (z. B. ist möglicherweise eine Bonferroni-Korrektur erforderlich)

— tdc

1

Dies ist auch in der grundlegenden Messtheorie der Fall. Nehmen wir an, wir haben ein Mikrometer und wollen prüfen, ob zwei Stäbe den gleichen Durchmesser haben. Wir nehmen 100 Messungen an beiden Stäben vor und prüfen, ob der Mittelwert + stddev überlappt. In beiden Fällen (Stabmessung und Modellmetik) nehmen wir nur eine Gaußsche Verteilung der Ergebnisse an, das einzige vernünftige Argument ist der zentrale Grenzwertsatz .

— jb.

3

Ich empfehle das Paper von Tom Dietterich mit dem Titel "Approximate Statistical Tests for Compared Supervised Classification Learning Algorithms". Hier ist das Profil der Zeitung auf CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Aus dem Abstract: "Dieser Aufsatz gibt einen Überblick über fünf ungefähre statistische Tests zur Bestimmung, ob ein Lernalgorithmus bei einer bestimmten Lernaufgabe einen anderen übertrifft. Diese Tests werden experimentell verglichen, um ihre Wahrscheinlichkeit zu bestimmen, einen Unterschied falsch zu erfassen, wenn kein Unterschied vorliegt (Fehler vom Typ I) ). ... McNemars Test hat nachweislich einen niedrigen Typ-I-Fehler. ... "

— Eric Ringger
quelle

2

IMHO sollte es keinen Unterschied zwischen der Verteilung von Punktzahlen und der Verteilung anderer Datentypen geben. so dass im Grunde alles , was Sie zu überprüfen, ob Ihre Daten normal verteilt sind oder nicht sehen hier . Darüber hinaus gibt es große Bücher , die gründlich mit dieser Frage befassen sehen hier (dh kurz: sie alle testen , ob das Ergebnis von zwei Sichter signifikant verschieden ist .. und wenn sie es tun, können sie in einem kombiniert werden - Ensemble - Modell)

— Dov
quelle

Ich denke, dass sie sehr wahrscheinlich nicht normal verteilt werden. Im Normalfall sind die Werte positiv und in Richtung eines Bereichsendes verschoben (1 oder 0, je nachdem, ob Sie Genauigkeit oder Fehler als Maß verwenden).

— tdc

@tdc: Diese Fallverteilung der Funktion (Anzahl der Fehlklassifizierungen) -> (Anzahl der Modelle mit dieser Anzahl von Fehlklassifizierungen) würde meiner Meinung nach oft eine ähnliche Poisson-Verteilung ergeben.

— jb.

@Dov: Zu testen, welches Modell deutlich besser ist (das ist die OP-Frage) und zu testen, ob sie unterschiedlich sind, ist eine ganz andere Sache.

— jb.

@jb. Vielen Dank. aber ich sagte deutlich anders nicht besser ...

— Dov

@Dov dein erster Link ist kaputt - ich kann nicht sagen, wohin er zeigen soll.

— Tamzin Blake

2

Es gibt keinen einzigen Test, der für alle Situationen geeignet ist. Ich kann das Buch "Evaluating Learning Algorithms" von Nathalie Japkowicz und Mohak Shah, Cambridge University Press, 2011 empfehlen. Die Tatsache, dass ein Buch mit fast 400 Seiten zu diesem Thema verfasst werden kann, legt nahe, dass es kein einfaches Thema ist. Ich habe oft festgestellt, dass es keinen Test gibt, der wirklich den Anforderungen meines Studiums entspricht. Daher ist es wichtig, die Vor- und Nachteile der letztendlich verwendeten Methode zu verstehen.

Ein häufiges Problem besteht darin, dass für große Datensätze ein statistisch signifikanter Unterschied mit einer Effektgröße erzielt werden kann, die keine praktische Bedeutung hat.

— Dikran Beuteltier
quelle