Ich arbeite an stark unausgeglichenen Daten. In der Literatur werden verschiedene Methoden verwendet, um die Daten durch erneutes Abtasten (Über- oder Unterabtasten) neu abzugleichen. Zwei gute Ansätze sind:
SMOTE: Synthetic Minority-Überabtastung ( SMOTE )
ADASYN: Adaptiver Ansatz zur synthetischen Probenahme für unausgewogenes Lernen ( ADASYN )
Ich habe ADASYN implementiert, weil es anpassungsfähig ist und sich problemlos auf Probleme mit mehreren Klassen ausweiten lässt.
Meine Frage ist, wie man die überabgetasteten Daten testet, die von ADASYN (oder anderen überabgetasteten Methoden) erzeugt werden. In den beiden genannten Arbeiten ist nicht klar, wie sie ihre Experimente durchgeführt haben. Es gibt zwei Szenarien:
1- Überabtasten Sie den gesamten Datensatz und teilen Sie ihn in Trainings- und Testsätze (oder Kreuzvalidierung) auf.
2- Führen Sie nach dem Aufteilen des Originaldatensatzes eine Überabtastung nur für den Trainingssatz durch und testen Sie den Originaldatensatz (kann mit Kreuzvalidierung durchgeführt werden).
Im ersten Fall sind die Ergebnisse viel besser als ohne Überabtastung, aber ich bin besorgt, wenn es Überanpassung gibt. Im zweiten Fall sind die Ergebnisse etwas besser als ohne Überabtastung und viel schlechter als im ersten Fall. Das Problem mit dem zweiten Fall ist jedoch, dass bei einer Überabtastung kein Vorteil erzielt wird, wenn alle Stichproben der Minderheitsklasse in das Testset gelangen.
Ich bin nicht sicher, ob es andere Einstellungen zum Testen solcher Daten gibt.