Ich habe ein Klassifizierungsproblem mit ungefähr 1000 positiven und 10000 negativen Proben im Trainingssatz. Dieser Datensatz ist also ziemlich unausgeglichen. Normaler Zufallswald versucht nur, alle Testproben als Mehrheitsklasse zu markieren.
Hier finden Sie einige gute Antworten zu Unterabtastungen und gewichteten Zufallsforsten: Was bedeutet es, ein Tree Ensemble mit stark voreingenommenen Datensätzen zu trainieren?
Welche Klassifizierungsmethoden neben RF können das Problem am besten bewältigen?