Logistische Regression mit niedriger Ereignisrate anwenden

15

Ich habe einen Datensatz, in dem die Ereignisrate sehr niedrig ist (40.000 von $12\cdot10^5$ ). Ich wende hier eine logistische Regression an. Ich hatte eine Diskussion mit jemandem, bei der sich herausstellte, dass eine logistische Regression keine gute Verwirrungsmatrix für solche Daten mit niedriger Ereignisrate ergibt. Aufgrund des Geschäftsproblems und der Art und Weise, wie es definiert wurde, kann ich die Anzahl der Ereignisse nicht von 40.000 auf eine größere Zahl erhöhen, obwohl ich damit einverstanden bin, dass ich einige nicht ereignisbasierte Populationen löschen kann.

Bitte teilen Sie mir Ihre Ansichten dazu mit, insbesondere:

Hängt die Genauigkeit der logistischen Regression von der Ereignisrate ab oder gibt es eine empfohlene Mindestereignisrate?
Gibt es eine spezielle Technik für Daten mit niedriger Ereignisrate?
Würde das Löschen meiner nicht aufgetretenen Population für die Genauigkeit meines Modells gut sein?

Ich bin neu in der statistischen Modellierung, bitte verzeihen Sie meine Unwissenheit und sprechen Sie alle damit verbundenen Probleme an, über die ich nachdenken könnte.

Vielen Dank,

logistic

— Ayush Biyani
quelle

3

40000 / 12e5 = 3,3%, das erscheint mir nicht sehr günstig.

— GaBorgulya

1

Vielen Dank. Falls die Menschen mehr Kontext für die Entscheidung über niedrige und hohe Ereignisraten benötigen, stammen diese Daten aus dem Versicherungssektor.

— Ayush Biyani

3

Möglicherweise interessiert Sie die logistische Regression in seltenen Ereignisdaten .

— Bernd Weiss

11

Ich beantworte Ihre Fragen in abweichender Reihenfolge:

3 Würde das Löschen meiner nicht aufgetretenen Grundgesamtheit die Genauigkeit meines Modells verbessern?

Jede Beobachtung liefert einige zusätzliche Informationen über den Parameter (über die Wahrscheinlichkeitsfunktion). Daher macht das Löschen von Daten keinen Sinn, da Sie lediglich Informationen verlieren würden.

1 Hängt die Genauigkeit der logistischen Regression von der Ereignisrate ab oder gibt es eine empfohlene Mindestereignisrate?

Technisch gesehen ja: Eine seltene Beobachtung ist viel aussagekräftiger (dh die Wahrscheinlichkeitsfunktion ist steiler). Wenn Ihr Ereignisverhältnis 50:50 beträgt, erhalten Sie viel engere Konfidenzbereiche (oder glaubwürdige Intervalle, wenn Sie Bayesianer sind) für dieselbe Datenmenge . Allerdings können Sie Ihre Ereignisrate nicht auswählen (es sei denn, Sie führen eine Fall-Kontroll-Studie durch), sodass Sie mit dem auskommen müssen, was Sie haben.

2 Gibt es eine spezielle Technik für Daten mit niedriger Ereignisrate?

Das größte Problem, das auftreten kann, ist die perfekte Trennung : Dies geschieht, wenn eine Kombination von Variablen alle Nichtereignisse (oder alle Ereignisse) ergibt. In diesem Fall nähern sich die Schätzungen der Maximalwahrscheinlichkeitsparameter (und ihre Standardfehler) der Unendlichkeit (obwohl dies normalerweise der Fall ist) der Algorithmus stoppt vorher). Es gibt zwei mögliche Lösungen:

a) Entfernen von Prädiktoren aus dem Modell: Dadurch wird Ihr Algorithmus zwar konvergieren, Sie entfernen jedoch die Variable mit der höchsten Aussagekraft. Dies ist also nur sinnvoll, wenn Ihr Modell anfangs überangepasst war (z. B. wenn zu viele komplizierte Interaktionen angepasst wurden). .

b) eine Art Bestrafung anwenden, beispielsweise eine vorherige Verteilung, durch die die Schätzungen auf vernünftigere Werte zurückgeführt werden.

— Simon Byrne
quelle

+1 Ich möchte nur hinzufügen, dass ich Kontexte gesehen habe, in denen Leute ihre Daten auf 50:50 gewichtet haben. Der Kompromiss scheint eine Verbesserung der Fähigkeit des Modells zur Klassifizierung (vorausgesetzt, ein guter Schwellenwert wird gewählt) gegenüber einem gewissen Informationsverlust über die Gesamtprävalenz und einer zusätzlichen Schwierigkeit bei der Interpretation der Koeffizienten zu sein.

— David J. Harris

1

@ David: Ich habe auch von Leuten gehört, die sich neu gewichten und komplizierte Pseudo-Bootstrap-Schemata verwenden, bei denen sie nur die Hochfrequenzklasse neu abtasten. Bei all diesen Techniken werden Daten letztendlich weggeworfen (oder erfunden). Ich würde argumentieren, dass wenn dies Ihr Modell verbessert, Sie wahrscheinlich das falsche Modell anpassen. Siehe auch meine Kommentare hier: stats.stackexchange.com/questions/10356/…

— Simon Byrne

1) Tut mir leid, wenn ich nicht klar war: Ich sprach über das Ändern des relativen Einflusses der Ereignisse und Nichtereignisse, wie mit dem Argument "Gewichte" in Rs glmFunktion. Im schlimmsten Fall ist das, als würde man einen Teil jedes heruntergewichteten Datenpunkts wegwerfen, aber es ist nicht wirklich dasselbe. 2) Wie gesagt, mit dieser Entscheidung sind Kompromisse verbunden. Dies ist wahrscheinlich am sinnvollsten in Kontexten, in denen die Population, aus der eine Stichprobe erstellt wird, nicht genau definiert ist und die tatsächliche Ereignisrate zunächst nicht aussagekräftig ist. Ich würde es auf alle Fälle nicht empfehlen.

— David J. Harris

2

Es gibt eine bessere Alternative zum Löschen von Nichtereignissen für zeitliche oder räumliche Daten: Sie können Ihre Daten über Zeit / Raum hinweg aggregieren und die Anzahl als Poisson modellieren. Wenn es sich bei Ihrem Ereignis beispielsweise um "Vulkanausbruch am Tag X" handelt, kommt es an nicht vielen Tagen zu einem Vulkanausbruch. Wenn Sie jedoch die Tage in Wochen oder Monate gruppieren, z. B. "Anzahl der Vulkanausbrüche im Monat X", haben Sie die Anzahl der Ereignisse reduziert, und mehr Ereignisse haben Werte ungleich Null.

— charles.y.zheng
quelle

6

Ich muss sagen, dieser Rat beantwortet die Frage überhaupt nicht. 1) Es ist nichts in der Frage, was darauf hindeutet, dass sich das OP mit räumlichen oder zeitlichen Daten befasst. 2) Wie würde das Aggregieren der Daten helfen, bedeutungsvolle Beziehungen zu identifizieren (es werden weniger Informationen verwendet als bei den ursprünglichen Einheiten!)

— Andy W

2

Hinweis: Damit eine beobachtete Beziehung auf aggregierter Ebene auftritt, muss sie auf der Ebene der ursprünglichen Einheiten vorhanden sein, obwohl eine Beziehung auf aggregierter Ebene nicht unbedingt die Beziehung zwischen den beiden Variablen auf disaggregierter Ebene widerspiegelt Niveau. Siehe qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf

— Andy W

stimme mit andy überein.

— Ayush Biyani