Ich denke, Subsampling (Downsampling) ist eine beliebte Methode, um das Klassenungleichgewicht auf der Basisebene zu kontrollieren, was bedeutet, dass es die Wurzel des Problems behebt. Für alle Ihre Beispiele würde es also funktionieren, jedes Mal zufällig 1.000 der Mehrheit der Klasse auszuwählen. Sie könnten sogar mit 10 Modellen herumspielen (10 Falten mit 1.000 Mehrheit gegenüber 1.000 Minderheit), damit Sie Ihren gesamten Datensatz verwenden können. Sie können diese Methode verwenden, aber Sie werfen 9.000 Samples weg, es sei denn, Sie probieren einige Ensemble-Methoden aus. Einfache Lösung, aber schwierig, ein optimales Modell basierend auf Ihren Daten zu erhalten.
Inwieweit Sie das Klassenungleichgewicht kontrollieren müssen, hängt weitgehend von Ihrem Ziel ab. Wenn Sie sich für eine reine Klassifizierung interessieren, wirkt sich ein Ungleichgewicht auf die 50% ige Wahrscheinlichkeit aus, die für die meisten Techniken abgeschnitten wurde. Daher würde ich ein Downsampling in Betracht ziehen. Wenn Sie sich nur um die Reihenfolge der Klassifizierungen kümmern (positive Ergebnisse sind im Allgemeinen höher als negative) und ein Maß wie AUC verwenden, wird das Klassenungleichgewicht nur Ihre Wahrscheinlichkeiten beeinflussen, aber die relative Reihenfolge sollte für die meisten Techniken anständig stabil sein.
Logistische Regression ist gut für Klassenungleichgewichte, denn solange Sie> 500 der Minderheitsklasse haben, sind die Schätzungen der Parameter genau genug und die einzige Auswirkung wird auf den Achsenabschnitt sein, der korrigiert werden kann, wenn Sie dies möchten wollen. Die logistische Regression modelliert die Wahrscheinlichkeiten und nicht nur die Klassen, sodass Sie mehr manuelle Anpassungen vornehmen können, um sie Ihren Anforderungen anzupassen.
Viele Klassifizierungstechniken haben auch ein Argument für die Klassengewichtung, mit dem Sie sich stärker auf die Minderheitsklasse konzentrieren können. Es wird eine Fehlklassifizierung einer echten Minderheitenklasse bestrafen, so dass Ihre allgemeine Genauigkeit ein wenig darunter leidet, aber Sie werden mehr Minderheitenklassen sehen, die korrekt klassifiziert sind.