Kann die zufällige Gesamtstruktur "als Algorithmus" trotz der ähnlichen und anderen zunehmenden Ansätze der Datenvariabilität als gute Option für die unausgeglichene Datenklassifizierung angesehen werden?
Kann die zufällige Gesamtstruktur "als Algorithmus" trotz der ähnlichen und anderen zunehmenden Ansätze der Datenvariabilität als gute Option für die unausgeglichene Datenklassifizierung angesehen werden?
Antworten:
Es ist keine gute Option.
Zufällige Wälder werden auf Entscheidungsbäumen aufgebaut, und Entscheidungsbäume reagieren empfindlich auf Klassenungleichgewichte . Jeder Baum ist auf einem Beutel aufgebaut, und jeder Beutel ist eine einheitliche Zufallsstichprobe aus den Daten (mit Ersatz). Daher wird jeder Baum durch Klassenungleichgewicht in die gleiche Richtung und Größe (im Durchschnitt) vorgespannt.
Es gibt verschiedene Techniken zur Verringerung oder Verringerung des Klassenungleichgewichts, von denen einige allgemein und einige spezifisch für zufällige Wälder sind. Dieses Thema wurde sowohl hier als auch anderswo ausführlich diskutiert.
edit: Ich würde hinzufügen, dass ich nicht denke, dass es dramatisch schlimmer ist als jede andere Option, zB logistische Regression, obwohl ich keine Beweise dafür habe
Unausgeglichene Klassen sind nur dann ein Problem, wenn Sie auch ein Ungleichgewicht der Fehlklassifizierungskosten haben. Wenn es kleine Minderheitenklassen gibt und es nicht teurer ist, sie als Mehrheitsklasse zu klassifizieren als umgekehrt, ist es vernünftig, eine Fehlklassifizierung von Minderheitenklassen zuzulassen.
Nehmen wir also an, Sie haben ein Klassen- und Kostenungleichgewicht. Es gibt mehrere Möglichkeiten, damit umzugehen. Max Kuhns Buch "Applied Predictive Modeling" hat in Kapitel 16 einen guten Überblick. Zu diesen Abhilfemaßnahmen gehört die Verwendung eines anderen Grenzwerts als 0,5, der die ungleichen Kosten widerspiegelt. Dies ist bei der binären Klassifizierung einfach, solange Ihr Klassifizierer Beschriftungswahrscheinlichkeiten ausgibt (Bäume und Wälder tun dies). Ich habe es noch nicht für mehrere Klassen untersucht. Sie können die Minderheitsklasse auch überabtasten, um ihr mehr Gewicht zu verleihen.