Ich habe 100.000 Beobachtungen (9 Dummy-Indikatorvariablen) mit 1000 positiven. Die logistische Regression sollte in diesem Fall gut funktionieren, aber die Cutoff-Wahrscheinlichkeit verwirrt mich.
In der allgemeinen Literatur wählen wir einen Cutoff von 50%, um Einsen und Nullen vorherzusagen. Ich kann dies nicht tun, da mein Modell einen Maximalwert von ~ 1% ergibt. Ein Schwellenwert kann also bei 0,007 oder irgendwo um ihn herum liegen.
Ich verstehe ROC
Kurven und wie der Bereich unter der Kurve mir helfen kann, zwischen zwei LR-Modellen für denselben Datensatz zu wählen. ROC hilft mir jedoch nicht bei der Auswahl einer optimalen Grenzwahrscheinlichkeit, mit der das Modell an Daten außerhalb der Stichprobe getestet werden kann.
Sollte ich einfach einen Grenzwert verwenden, der den minimiert misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Hinzugefügt -> Bei einer so niedrigen Ereignisrate werden meine Fehlklassifizierungsraten durch eine große Anzahl von Fehlalarmen beeinflusst. Zwar scheint die Rate insgesamt gut zu sein, da die Gesamtgröße des Universums ebenfalls groß ist, aber mein Modell sollte nicht so viele Fehlalarme aufweisen (da es sich um ein Investment-Return-Modell handelt). 5/10 Koeffizienten sind signifikant.