Hat jemand eine Ahnung, warum ich viel mehr falsch positive als falsch negative Ergebnisse erhalte (positiv ist die Minderheitsklasse)? Vielen Dank im Voraus für Ihre Hilfe!
Weil positiv die Minderheitsklasse ist. Es gibt viele negative Beispiele, die zu falsch positiven Ergebnissen führen können. Umgekehrt gibt es weniger positive Beispiele, die zu falsch negativen Ergebnissen werden könnten.
= T.P.( T.P.+ F.N.)
Die Empfindlichkeit (True Positive Rate) bezieht sich auf die False Positive Rate (1-Spezifität), wie durch eine ROC-Kurve dargestellt. In einem Extremfall nennen Sie jedes Beispiel positiv und haben eine 100% ige Empfindlichkeit mit 100% FPR. Bei einem anderen nennen Sie kein Beispiel positiv und haben eine Empfindlichkeit von 0% mit einem FPR von 0%. Wenn die positive Klasse die Minderheit ist, verursacht selbst ein relativ kleiner FPR (den Sie möglicherweise haben, weil Sie einen hohen Rückruf = Empfindlichkeit = TPR haben) eine hohe Anzahl von FPs (weil es so viele negative Beispiele gibt).
Schon seit
= T.P.( T.P.+ F.P.)
Selbst bei einem relativ niedrigen FPR wird das FP das TP überwältigen, wenn die Anzahl der negativen Beispiele viel größer ist.
Alternative,
C.+
Ö+
P.( O.+| C.+) = P.( C.+| Ö+) P.( O.+)P.( C.+)
P (O +) ist niedrig, wenn die positive Klasse klein ist.
Hat jemand von Ihnen einen Rat, was ich tun könnte, um meine Präzision zu verbessern, ohne meinen Rückruf zu beeinträchtigen?
Wie von @rinspy erwähnt, funktioniert GBC meiner Erfahrung nach gut. Es ist jedoch langsamer als SVC mit einem linearen Kernel, aber Sie können sehr flache Bäume erstellen, um es zu beschleunigen. Außerdem können weitere Funktionen oder Beobachtungen hilfreich sein (z. B. gibt es möglicherweise einige derzeit nicht analysierte Funktionen, die in allen aktuellen FP immer auf einen bestimmten Wert eingestellt sind).
Es kann sich auch lohnen, ROC-Kurven und Kalibrierungskurven zu zeichnen. Es kann vorkommen, dass der Klassifikator, obwohl er eine geringe Genauigkeit aufweist, zu einer sehr nützlichen Wahrscheinlichkeitsschätzung führen kann. Nur zu wissen, dass eine Festplatte eine um das 500-fache erhöhte Ausfallwahrscheinlichkeit aufweist, obwohl die absolute Wahrscheinlichkeit relativ gering ist, kann eine wichtige Information sein.
Eine geringe Genauigkeit bedeutet im Wesentlichen, dass der Klassifizierer viele falsch positive Ergebnisse zurückgibt. Dies ist jedoch möglicherweise nicht so schlimm, wenn ein falsches Positiv billig ist.