Ich möchte 2 verschiedene Klassifizierer für ein Problem der Textklassifizierung in mehreren Klassen vergleichen, die große Trainingsdatensätze verwenden. Ich bezweifle, ob ich ROC-Kurven oder Lernkurven verwenden sollte, um die beiden Klassifikatoren zu vergleichen.
Einerseits sind Lernkurven hilfreich, um die Größe des Trainingsdatensatzes zu bestimmen, da Sie die Größe des Datensatzes ermitteln können, bei dem der Klassifizierer aufhört zu lernen (und sich möglicherweise verschlechtert). Der beste Klassifikator in diesem Fall könnte also derjenige sein, der die höchste Genauigkeit mit der kleinsten Datensatzgröße erreicht.
Auf der anderen Seite können Sie mit ROC-Kurven einen Punkt mit dem richtigen Kompromiss zwischen Sensitivität und Spezifität finden. Der beste Klassifikator ist in diesem Fall nur derjenige, der näher am oberen linken Teil liegt, mit dem höchsten TPR für jeden FPR.
Sollte ich beide Bewertungsmethoden verwenden? Kann eine Methode mit einer besseren Lernkurve eine schlechtere ROC-Kurve haben und umgekehrt?