Ich versuche, eine logistische Regression anzupassen, bei der es einen großen Unterschied in der Anzahl der Datenpunkte in beiden Gruppen gibt (70 gegenüber 10.000). Ein statistischer Freund von mir hat mir gesagt, dass dies ein bekanntes Problem mit der logistischen Regression ist und dass es für diese Art von Zahlen die Daten überpasst und im Grunde nicht funktioniert. Wenn ich die Daten ablege und mit dem Modell vergleiche, ist es ziemlich offensichtlich, dass dies definitiv der Fall ist.
Ich frage mich, ob jemand eine bessere / flexiblere Methode zum Anpassen dieser Art von binären Antwortdaten kennt.
(Ich bin übrigens kein Statistiker, also mach es mir leicht!)