In einer kürzlich gut erhaltenen Frage fragt Tim, wann unausgeglichene Daten wirklich ein Problem beim maschinellen Lernen sind . Die Prämisse der Frage ist, dass es eine Menge Literatur zum maschinellen Lernen gibt, die sich mit dem Klassengleichgewicht und dem Problem unausgeglichener Klassen befasst . Die Idee ist, dass Datensätze mit einem Ungleichgewicht zwischen der positiven und der negativen Klasse Probleme für einige Algorithmen der Klassifikation des maschinellen Lernens verursachen (ich beziehe hier probabilistische Modelle ein), und es sollten Methoden gesucht werden, um den Datensatz "auszugleichen" und die perfekte 50/50 wiederherzustellen Aufteilung zwischen positiven und negativen Klassen.
Der allgemeine Sinn der überstimmten Antworten ist, dass "es nicht ist, zumindest wenn Sie bei Ihrer Modellierung nachdenklich sind". In einem hochgestimmten Kommentar zu einer akzeptierten Antwort stellt Herr Henry L. fest
[...] es gibt kein geringes problem mit der verwendung unausgeglichener daten. Nach meiner Erfahrung ist der Ratschlag, "unausgeglichene Daten zu vermeiden", entweder algorithmenspezifisch oder ererbt. Ich stimme mit AdamO überein, dass unausgeglichene Daten für ein gut spezifiziertes Modell im Allgemeinen kein konzeptionelles Problem darstellen.
Adamo argumentiert , dass das „Problem“ mit Klassenbalance ist wirklich einer der Klasse Seltenheit
Daher besteht das einzige Problem mit unausgeglichenen Daten, zumindest bei der Regression (was ich jedoch unter allen Umständen vermute), darin, dass Sie effektiv eine kleine Stichprobengröße haben. Wenn eine Methode für die Anzahl der Personen in der selteneren Klasse geeignet ist, sollte es kein Problem geben, wenn ihre proportionale Mitgliedschaft unausgewogen ist.
Wenn dies das eigentliche Problem ist, bleibt die Frage offen: Welchen Zweck haben alle Resampling-Methoden, um den Datensatz auszugleichen: Oversampling, Undersampling, SMOTE usw.? Es ist klar, dass sie nicht das Problem einer impliziten kleinen Stichprobengröße ansprechen. Sie können keine Informationen aus dem Nichts erstellen!