Ich versuche, ein Klassifizierungsproblem aus dem UCI-Datenbank-Repository zu lösen . Leider (oder zum Glück) habe ich festgestellt, dass mein Datensatz nicht ausgeglichen ist. Ich habe die Daten in 5 Klassen strukturiert, entsprechend der vom Schüler erreichten Endnote:
- Wenn der Schüler eine Note von 0 bis 7 erhält => Klasse 1 [FAIL (E)]
- Wenn der Schüler eine Note von 8 bis 9 erhält => Klasse 2 [AUSREICHEND (D)]
- Wenn der Schüler eine Note von 10 bis 11 erhält => Klasse 3 [GUT (C)]
- Wenn der Schüler eine Note von 12 bis 15 erhält => Klasse 4 [NOTABLE (B)]
- Wenn der Schüler eine Note von 16 bis 19 erhält => Klasse 5 [HERVORRAGEND (A)]
Mein Problem ist, dass die Daten, wie gesagt, unausgewogen sind, deshalb möchte ich sie ausgleichen.
Ich habe darüber nachgedacht, eine Art Unterabtastungsmethode anzuwenden, aber mein Datensatz enthält nur 649 Instanzen. Daher denke ich, dass das Entfernen einiger davon nicht die beste Idee ist. Dann habe ich darüber nachgedacht, ein Oversampling durchzuführen, um einige Beispiele für Minderheitenklassen zu replizieren und dann die Klassen auszugleichen, aber ich bin mir immer noch nicht sicher, ob das funktionieren könnte.
Ich wäre Ihnen sehr dankbar, wenn Sie mir dabei helfen könnten. Es ist das erste Mal, dass ich ein echtes Problem mit unausgeglichenen Daten habe.