Ich habe einen kleinen, unausgeglichenen Datensatz (70 positiv, 30 negativ) und habe mit der Modellauswahl für SVM-Parameter unter Verwendung von BAC (ausgeglichene Genauigkeit) und AUC (Bereich unter der Kurve) herumgespielt. Ich habe verschiedene Klassengewichte für den C-Parameter in libSVM verwendet, um die unausgeglichenen Daten gemäß den hier angegebenen Anweisungen auszugleichen ( Training eines Entscheidungsbaums gegen unausgeglichene Daten ).
Es scheint, dass der k-fache Kreuzvalidierungsfehler sehr empfindlich auf die Art der Leistungsmessung reagiert. Es hat auch einen Fehler an sich, weil die Trainings- und Validierungssätze zufällig ausgewählt werden. Wenn ich beispielsweise BAC zweimal mit verschiedenen zufälligen Startwerten wiederhole, erhalte ich unterschiedliche Fehler und anschließend unterschiedliche optimale Parameterwerte. Wenn ich wiederholte BAC-Werte mittle, ergibt eine 1000-fache Mittelung andere optimale Parameterwerte als eine 10000-malige Mittelung. Darüber hinaus ergeben sich durch Ändern der Anzahl der Falten unterschiedliche optimale Parameterwerte.
Genauigkeitsmetriken für die Kreuzvalidierung sind möglicherweise zu optimistisch. Normalerweise ergibt alles, was über eine zweifache Kreuzvalidierung hinausgeht, eine 100% ige Genauigkeit. Auch die Fehlerrate wird aufgrund der geringen Stichprobengröße diskretisiert. Die Modellauswahl gibt mir oft die gleiche Fehlerrate über alle oder die meisten Parameterwerte hinweg.
Woher weiß ich beim Schreiben eines Berichts, dass eine Klassifizierung „gut“ oder „akzeptabel“ ist? Auf dem Gebiet scheint es so, als hätten wir keine allgemein akzeptierte Anpassungsgüte oder p-Wert-Schwelle. Da ich die Daten iterativ hinzufüge, möchte ich wissen, wann ich aufhören soll - was ist ein gutes N, bei dem sich das Modell nicht wesentlich verbessert?
Angesichts der oben beschriebenen Probleme scheint es, dass die Genauigkeit zwischen Veröffentlichungen nicht einfach verglichen werden kann, während AUC als schlechter Indikator für die Leistung beschrieben wurde (siehe hier oder hier zum Beispiel).
Irgendwelche Ratschläge, wie man eines dieser 3 Probleme angeht?