Dies ist ein interessantes und sehr häufiges Problem bei der Klassifizierung - nicht nur in Entscheidungsbäumen, sondern in praktisch allen Klassifizierungsalgorithmen.
Wie Sie empirisch gesehen haben, kann ein Trainingssatz, der aus einer unterschiedlichen Anzahl von Vertretern beider Klassen besteht, zu einem Klassifikator führen, der in Richtung der Mehrheitsklasse voreingenommen ist. Bei Anwendung auf einen Testsatz, der ähnlich unausgeglichen ist, liefert dieser Klassifizierer eine optimistische Genauigkeitsschätzung. Im Extremfall kann der Klassifikator jeden einzelnen Testfall der Mehrheitsklasse zuordnen, wodurch eine Genauigkeit erreicht wird, die dem Anteil der Testfälle entspricht, die zur Mehrheitsklasse gehören. Dies ist ein bekanntes Phänomen in der binären Klassifizierung (und erstreckt sich natürlich auch auf Einstellungen für mehrere Klassen).
Dies ist ein wichtiges Problem, da ein unausgeglichenes Dataset zu überhöhten Leistungsschätzungen führen kann. Dies kann wiederum zu falschen Schlussfolgerungen über die Signifikanz führen, mit der der Algorithmus besser als der Zufall abgeschnitten hat.
Die Literatur zum maschinellen Lernen zu diesem Thema hat im Wesentlichen drei Lösungsstrategien entwickelt.
Sie können Guthaben auf dem Trainingssatz wiederherstellen Unterabtastung die große Klasse oder durch Überabtasten die kleine Klasse, Vorspannung zu verhindern , dass in erster Linie entstehen.
Alternativ können Sie die Kosten für eine Fehlklassifizierung, wie in einer vorherigen Antwort erwähnt, erneut ändern, um eine Verzerrung zu vermeiden.
Eine zusätzliche Sicherung besteht darin, die Genauigkeit durch die sogenannte abgeglichene Genauigkeit zu ersetzen . Sie ist definiert als das arithmetische Mittel der klassenspezifischen Genauigkeiten wobei und stellen die Genauigkeit dar, die an positiven bzw. negativen Beispielen erhalten wurde. Wenn der Klassifikator in beiden Klassen gleich gut abschneidet, reduziert sich dieser Term auf die herkömmliche Genauigkeit (dh die Anzahl der korrekten Vorhersagen geteilt durch die Gesamtanzahl der Vorhersagen). Wenn dagegen die herkömmliche Genauigkeit nur deshalb über dem Zufall liegt , weil der Klassifikator einen unausgeglichenen Testsatz ausnutzt, fällt die ausgeglichene Genauigkeit gegebenenfalls auf den Zufall (siehe Skizze unten).π+π-ϕ:=12(π++π−),π+π−
Ich würde empfehlen, mindestens zwei der oben genannten Ansätze in Verbindung zu betrachten. Sie könnten beispielsweise Ihre Minderheitsklasse überbemustern, um zu verhindern, dass Ihr Klassifikator eine Tendenz zugunsten der Mehrheitsklasse erhält. Anschließend können Sie bei der Bewertung der Leistung Ihres Klassifikators die Genauigkeit durch die ausgeglichene Genauigkeit ersetzen. Die beiden Ansätze ergänzen sich. Wenn sie zusammen angewendet werden, sollten sie Ihnen helfen, Ihr ursprüngliches Problem zu verhindern und falsche Schlussfolgerungen daraus zu vermeiden.
Gerne stelle ich Ihnen weitere Literaturhinweise zur Verfügung, wenn Sie dies weiter verfolgen möchten.