Ich habe einen stark unausgeglichenen Testdatensatz. Die positive Menge besteht aus 100 Fällen, während die negative Menge aus 1500 Fällen besteht. Auf der Trainingsseite habe ich einen größeren Kandidatenpool: Der positive Trainingssatz umfasst 1200 Fälle und der negative Trainingssatz umfasst 12000 Fälle. Für diese Art von Szenario habe ich mehrere Möglichkeiten:
1) Verwenden von gewichtetem SVM für den gesamten Trainingssatz (P: 1200, N: 12000)
2) Unter Verwendung von SVM basierend auf dem abgetasteten Trainingssatz (P: 1200, N: 1200) werden die 1200 negativen Fälle aus 12000 Fällen abgetastet.
Gibt es theoretische Leitlinien für die Entscheidung, welcher Ansatz besser ist? Sollte ich das unausgeglichene Trainingsset auch verwenden, da der Testdatensatz sehr unausgeglichen ist?