Ich möchte seltene Ereignisse in einer endlichen Population untersuchen. Da ich nicht sicher bin, welche Strategie am besten geeignet ist, würde ich mich über Tipps und Hinweise in Bezug auf diese Angelegenheit freuen, obwohl ich mir bewusst bin, dass sie weitgehend abgedeckt wurde. Ich weiß nur nicht wirklich, wo ich anfangen soll.
Mein Problem ist ein politikwissenschaftliches und ich habe eine begrenzte Bevölkerung mit 515.843 Aufzeichnungen. Sie sind einer binären abhängigen Variablen mit 513.334 "0" und 2.509 "1" zugeordnet. Ich kann meine "1" als seltene Ereignisse prägen, da sie nur 0,49% der Bevölkerung ausmachen.
Ich habe eine Menge von ungefähr 10 unabhängigen Variablen, mit denen ich ein Modell erstellen möchte, um das Vorhandensein von "1" zu erklären. Wie viele von uns las ich den Artikel von King & Zeng aus dem Jahr 2001 über die Korrektur seltener Ereignisse. Ihr Ansatz bestand darin, die Anzahl der "0" mithilfe eines Case-Control-Entwurfs zu verringern und dann den Achsenabschnitt zu korrigieren.
In diesem Beitrag heißt es jedoch, dass das Argument von King & Zeng nicht notwendig war, wenn ich meine Daten bereits über die gesamte Bevölkerung hinweg gesammelt habe, was mein Fall ist. Daher muss ich das klassische Logit-Modell verwenden. Obwohl ich gute signifikante Koeffizienten erhalte, ist mein Modell leider für die Vorhersage völlig unbrauchbar (99,48% meiner "1" werden nicht vorhergesagt).
Nachdem ich den Artikel von King & Zeng gelesen hatte, wollte ich ein Fall-Kontroll-Design ausprobieren und wählte nur 10% der "0" mit allen "1" aus. Mit fast den gleichen Koeffizienten konnte das Modell fast ein Drittel der "1" voraussagen, wenn es auf die Gesamtpopulation angewendet wurde. Natürlich gibt es viele falsch-positive.
Ich habe also drei Fragen, die ich Ihnen stellen möchte:
1) Wenn King & Zengs Herangehensweise vorurteilsfrei ist, wenn Sie die Bevölkerung genau kennen, warum verwenden sie dann eine Situation, in der sie die Bevölkerung in ihrem Artikel kennen, um ihren Standpunkt zu belegen?
2) Wenn ich gute und signifikante Koeffizienten in einer logit-Regression, aber eine sehr schlechte Vorhersagekraft habe, bedeutet das, dass die durch diese Variable erklärte Variation bedeutungslos ist?
3) Was ist der beste Ansatz, um mit seltenen Ereignissen umzugehen? Ich habe über das Relogit-Modell von King, Firths Ansatz, das genaue Logit usw. gelesen. Ich muss gestehen, dass ich unter all diesen Lösungen verloren bin.