Es gibt viele Situationen, in denen Sie möglicherweise mehrere verschiedene Klassifizierer trainieren oder verschiedene Methoden zum Extrahieren von Features verwenden. In der Literatur geben Autoren häufig den mittleren Klassifizierungsfehler über eine Reihe von zufälligen Teilungen der Daten an (dh nach einer doppelt verschachtelten Kreuzvalidierung) und geben manchmal auch Abweichungen über den Fehler über die Teilungen an. Dies allein reicht jedoch nicht aus, um zu sagen, dass ein Klassifikator signifikant besser ist als ein anderer. Ich habe viele verschiedene Ansätze gesehen - mit Chi-Quadrat-Tests, T-Tests, ANOVA mit Post-Hoc-Tests usw.
Mit welcher Methode sollte die statistische Signifikanz bestimmt werden? Dieser Frage liegt folgende Frage zugrunde: Welche Annahmen sollten wir hinsichtlich der Verteilung der Klassifizierungswerte treffen?