Ich verwende einen naiven Bayes-Klassifikator, um zwischen zwei Datengruppen zu klassifizieren. Eine Gruppe der Daten ist viel größer als die andere (über 4 Mal). Ich verwende die vorherige Wahrscheinlichkeit jeder Gruppe im Klassifikator.
Das Problem ist, dass das Ergebnis, das ich erhalte, eine wahre positive Rate von 0% und eine falsche positive Rate von 0% aufweist. Ich habe die gleichen Ergebnisse erzielt, als ich die Werte vor 0,5 und 0,5 eingestellt habe.
Wie kann ich meine Schwelle auf etwas Besseres einstellen, um ausgewogenere Ergebnisse zu erzielen?
Ich hatte ein ähnliches Problem bei der Verwendung des Logistic Regression-Klassifikators. Ich habe es gelöst, indem ich den vorherigen Term von der Verzerrung abgezogen habe.
Wenn ich Fisher Linear Discriminant für diese Daten verwende, erhalte ich gute Ergebnisse mit dem in der Mitte festgelegten Schwellenwert.
Ich gehe davon aus, dass es eine gemeinsame Lösung für dieses Problem gibt, ich konnte sie einfach nicht finden.
UPDATE: Ich habe gerade bemerkt, dass der Klassifikator überpasst. Die Leistung am Trainingsset ist perfekt (100% korrekt).
Wenn ich gleiche Gruppen verwende, beginnt der Klassifizierer auch mit der Klassifizierung in die "kleine" Gruppe, aber die Leistung ist ziemlich schlecht (schlechter als FLD oder LR).
UPDATE2: Ich denke, das Problem war, dass ich die vollständige Kovarianzmatrix verwendet habe. Das Laufen mit diagonaler Kovarianzmatrix führte zu "ausgeglicheneren" Ergebnissen.