Sie können Ihre Minderheitsklassenbeispiele durch einfaches Duplizieren überabtasten oder den SMOTE- Algorithmus ( DMwR- Paket in R, Funktion SMOTE) verwenden, der synthetische Beispiele für Minderheitsklassen generiert und gleichzeitig die Mehrheitskategorie herunterabtastet. Da Sie eine ziemlich hohe Anzahl von Fällen haben, sollte das Downsampling nicht zu viel Konzeptverlust führen, aber natürlich verlieren Sie immer noch ein paar Informationen, was nicht ideal ist.
Beachten Sie, dass, wie bereits von Analyst erwähnt, 1300 Minderheitenfälle eine relative Seltenheit, aber keine absolute Seltenheit sind. Das heißt, wenn die Minderheitsklasse durch starke Konzepte repräsentiert wird, sollte Ihr Klassifikator in der Lage sein, dies zu erfassen (siehe dieses Papier für eine gute Diskussion der absoluten und relativen Seltenheit). Vielleicht können Ihre Prädiktoren überhaupt nicht so gut zwischen Klassen unterscheiden, oder Sie haben eine gewisse Konzeptüberschneidung, die das Lernen erschwert.
Welchen Lernalgorithmus verwenden Sie? Zum Beispiel ist Stochastic Gradient Tree Boosting etwas weniger empfindlich gegenüber relativen Klassenungleichgewichten als Random Forests (da der Fokus allmählich auf falsch klassifizierte Fälle gelegt wird). Mit Random Forests wurden zwei Strategien entwickelt, um das Klassenungleichgewicht zu bewältigen: Resampling und Gewichtung. Einige im Geiste ähnliche Methoden wurden auch für das Boosten eingeführt ( z . B. ).
BEARBEITEN: Verweise hinzugefügt (falls Links in Zukunft sterben):
Chawla, Nitesh V. et al. "SMOTE: Überabtastungstechnik für synthetische Minderheiten." Journal of Artificial Intelligence Research (2002): 321-357.
Weiss, GM (2004). Bergbau mit Seltenheit: ein einheitlicher Rahmen. ACM SIGKDD Explorations Newsletter, 6 (1), 7-19.
Chen, Chao, Andy Liaw und Leo Breiman. "Verwenden zufälliger Gesamtstrukturen, um unausgeglichene Daten zu lernen." Universität von Kalifornien, Berkeley (2004).
Sun, Yanmin et al. "Kostensensitives Boosten zur Klassifizierung unausgeglichener Daten." Pattern Recognition 40.12 (2007): 3358 & ndash; 3378.