Ich habe einen Datensatz, der ein binäres Klassenattribut hat. Es gibt 623 Fälle mit Klasse +1 (krebspositiv) und 101.671 Fälle mit Klasse -1 (krebsnegativ).
Ich habe verschiedene Algorithmen ausprobiert (Naive Bayes, Random Forest, AODE, C4.5) und alle haben inakzeptable falsch negative Verhältnisse. Random Forest hat die höchste Gesamtprognosegenauigkeit (99,5%) und das niedrigste falsch-negative Verhältnis, verfehlt jedoch immer noch 79% der positiven Klassen (dh es werden 79% der bösartigen Tumoren nicht erkannt).
Irgendwelche Ideen, wie ich diese Situation verbessern kann?
Vielen Dank!