Sie müssen mit Klassenungleichgewichten umgehen, wenn / weil dies Ihr Modell verbessert (bei unsichtbaren Daten). "Besser" muss man selbst definieren. Es könnte Genauigkeit sein, es könnte Kosten verursachen, es könnte die wahre positive Rate usw. sein.
Es gibt eine subtile Nuance, die man verstehen muss, wenn man über ein Klassenungleichgewicht spricht. Sind Ihre Daten nämlich unausgeglichen, weil:
- Die Verteilung der Daten selbst ist unausgewogen
In einigen Fällen tritt eine Klasse viel häufiger auf als eine andere. Und es ist okay. In diesem Fall müssen Sie prüfen, ob bestimmte Fehler teurer sind als andere. Dies ist das typische Beispiel für das Erkennen tödlicher Krankheiten bei Patienten, das Herausfinden, ob jemand ein Terrorist ist usw. Dies geht auf die kurze Antwort zurück. Wenn einige Fehler teurer sind als andere, sollten Sie sie mit höheren Kosten "bestrafen". Ein besseres Modell hat daher geringere Kosten. Wenn alle Fehler so schlimm sind, gibt es keinen wirklichen Grund, warum Sie kostensensitive Modelle verwenden sollten.
Es ist auch wichtig zu beachten, dass die Verwendung kostensensitiver Modelle nicht nur für unausgeglichene Datensätze gilt. Sie können solche Modelle verwenden, wenn auch Ihre Daten perfekt ausbalanciert sind.
- es stellt nicht die wahre Verteilung der Daten dar
Manchmal sind Ihre Daten "unausgewogen", weil sie nicht die wahre Verteilung der Daten darstellen. In diesem Fall müssen Sie vorsichtig sein, da Sie "zu viele" Beispiele für eine Klasse und "zu wenige" für die andere haben und daher sicherstellen müssen, dass Ihr Modell nicht über- / unterpasst dieser Klassen.
Dies unterscheidet sich von der Verwendung von Kosten, da ein Fehler möglicherweise nicht schlimmer ist als ein anderer. Was passieren würde ist, dass Sie voreingenommen wären und es für Ihr Modell nicht vorteilhaft wäre, wenn die unsichtbaren Daten nicht die gleiche Verteilung haben wie die Daten, auf denen Sie trainiert haben.
Nehmen wir an, ich gebe Ihnen Trainingsdaten und Ihr Ziel ist es, zu erraten, ob etwas rot oder blau ist. Ob Sie Blau mit Rot oder Rot mit Blau verwechseln, macht keinen großen Unterschied. Ihre Trainingsdaten enthalten zu 90% rote Instanzen, in denen sie im wirklichen Leben nur zu 10% vorkommen. Damit müssten Sie sich auseinandersetzen, um Ihr Modell zu verbessern.