Ich habe einen Datensatz, in dem die Ereignisrate sehr niedrig ist (40.000 von ). Ich wende hier eine logistische Regression an. Ich hatte eine Diskussion mit jemandem, bei der sich herausstellte, dass eine logistische Regression keine gute Verwirrungsmatrix für solche Daten mit niedriger Ereignisrate ergibt. Aufgrund des Geschäftsproblems und der Art und Weise, wie es definiert wurde, kann ich die Anzahl der Ereignisse nicht von 40.000 auf eine größere Zahl erhöhen, obwohl ich damit einverstanden bin, dass ich einige nicht ereignisbasierte Populationen löschen kann.
Bitte teilen Sie mir Ihre Ansichten dazu mit, insbesondere:
- Hängt die Genauigkeit der logistischen Regression von der Ereignisrate ab oder gibt es eine empfohlene Mindestereignisrate?
- Gibt es eine spezielle Technik für Daten mit niedriger Ereignisrate?
- Würde das Löschen meiner nicht aufgetretenen Population für die Genauigkeit meines Modells gut sein?
Ich bin neu in der statistischen Modellierung, bitte verzeihen Sie meine Unwissenheit und sprechen Sie alle damit verbundenen Probleme an, über die ich nachdenken könnte.
Vielen Dank,