Mindestanzahl von Beobachtungen für die logistische Regression?


9

Ich führe eine binäre logistische Regression mit 3 numerischen Variablen aus. Ich unterdrücke den Achsenabschnitt in meinen Modellen, da die Wahrscheinlichkeit Null sein sollte, wenn alle Eingabevariablen Null sind.

Was ist die minimale Anzahl von Beobachtungen, die ich verwenden sollte?


10
Sie würden einen Abschnitt von benötigen, um das zu tun! Ein Achsenabschnitt von 0 entspricht einer Wahrscheinlichkeit von , nicht , wenn alle unabhängigen Variablen Null sind. 1011+exp(0)=1/20
whuber

2
Hier gibt es eine verwandte Diskussion: Stichprobengröße für logistische Regression .
Gung - Reinstate Monica

Antworten:


19

Es gibt einen Weg, um an einen soliden Ausgangspunkt zu gelangen. Angenommen, es gab keine Kovariaten, sodass der einzige Parameter im Modell der Achsenabschnitt war. Welche Stichprobengröße ist erforderlich, damit die Schätzung des Abschnitts genau genug ist, damit die vorhergesagte Wahrscheinlichkeit mit 95% iger Sicherheit innerhalb von 0,1 der wahren Wahrscheinlichkeit liegt, wenn der wahre Abschnitt in der Nähe von Null liegt? Die Antwort lautet n = 96. Was wäre, wenn es eine Kovariate gäbe, die mit einer Prävalenz von 0,5 binär wäre? Man würde 96 Probanden mit x = 0 und 96 mit x = 1 benötigen, um eine Obergrenze für die Fehlergrenze für die Schätzung von Prob [Y = 1 | zu haben X = x] 0,1 nicht überschreiten. Die allgemeine Formel für die Stichprobengröße, die erforderlich ist, um eine Fehlerquote von bei der Schätzung einer wahren Wahrscheinlichkeit von bei einem Konfidenzniveau von 0,95 zu erreichen, lautetp n = ( 1,96δpp=0,5n=(1.96δ)2×p(1p) . Stellen Sie im schlimmsten Fall .p=0.5


Ich freue mich über Ihre Hilfe in diesem Forum. Ich habe ~ 90000 Ereignisse und ~ 2000000 Nichtereignisse. Ich brauche ein Logistikmodell mit 65 Prädiktoren. Wie und wie viele Proben kann ich jetzt nehmen? Tatsächlich bezieht sich meine Frage auf stats.stackexchange.com/questions/268201/…
SIslam

2
Kein Problem, wenn Sie 65 gleichzeitig mit Ihrer effektiven Stichprobengröße anpassen.
Frank Harrell

aber mir wurde vorgeschlagen, dass zu viele Proben Probleme verursachen können, da ich psudo r im Quadrat als niedrig bekam.
Islam

3
Machst du Witze? Wenn der unter Verwendung einer großen Stichprobe niedrig ist, ist dies die genaueste Schätzung des wahren und fallende Beobachtungen verbessern die Leistung des Modells nicht. es wird es nur noch schlimmer machen. Ergänzen Sie das mit anderen leichter verständlichen Metriken wie dem Index (Konkordanzwahrscheinlichkeit; ROC-Bereich). Und ignorieren Sie vor allem alle Ratschläge, um die Häufigkeit der Ergebniskategorien auszugleichen. R 2 R 2 cR2R2R2c
Frank Harrell

Muss ich glmnet dies verwenden, um zu diesem Zeitpunkt den nützlichsten Prädiktor zu finden?
Islam

9

Es gibt nicht wirklich eine Mindestanzahl von Beobachtungen. Je mehr Beobachtungen Sie haben, desto stärker werden die Parameter Ihres Modells durch die Daten eingeschränkt und desto sicherer wird das Modell. Wie viele Beobachtungen Sie benötigen, hängt von der Art des Problems ab und davon, wie sicher Sie in Ihrem Modell sein müssen. Ich halte es nicht für eine gute Idee, sich bei solchen Dingen zu sehr auf "Faustregeln" zu verlassen, aber verwenden Sie alle Daten, die Sie erhalten können, und überprüfen Sie das Vertrauen / die glaubwürdigen Intervalle in Bezug auf Ihre Modellparameter und Vorhersagen.


keine Mindestanzahl! Ich habe ~ 90000 Ereignisse und ~ 2000000 Nichtereignisse. Ich brauche ein Logistikmodell mit 65 Regressoren. Mir wurde gesagt, dass dies zu viele Stichproben sind, da ich diese ganzen ~ 90000 Ereignisse und ~ 90000 Nichtereignisse nehme, die zufällig aus ~ 2000000 ausgewählt wurden, versuche ich, die Stichprobe zu verringern, während die Stichproben repräsentativ sind. Wie viele Proben kann ich zu diesem Zeitpunkt entnehmen und wie. Tatsächlich beziehe ich mich auf stats.stackexchange.com/questions/268201/…
SIslam

3
Nein, tu das nicht
Frank Harrell

1
Ich stimme @FrankHarrell zu (möglicherweise aus einem anderen Grund?). Das Problem des "Klassenungleichgewichts" verschwindet tendenziell, je mehr Daten Sie sammeln. Wenn Sie die Trainingsdaten künstlich ausgleichen, teilen Sie dem Modell mit, dass die Betriebsklassenfrequenzen zwischen 50 und 50 liegen, was wahrscheinlich nicht der Fall ist, und Sie werden darüber hinweg sein Klassifizieren Sie die Minderheitsklasse im betrieblichen Gebrauch. Wenn Sie dies tun, bearbeiten Sie die Ausgabewahrscheinlichkeiten nach, um den Unterschied in den Trainings- und Betriebsklassenfrequenzen auszugleichen (an diesem Punkt erhalten Sie wahrscheinlich im Wesentlichen das gleiche Ergebnis wie beim Training mit allen Daten).
Dikran Beuteltier

0

Update: Ich habe den obigen Kommentar von @David Harris nicht gesehen, der meinem ziemlich ähnlich ist. Das tut mir leid. Ihr könnt meine Antwort löschen, wenn sie zu ähnlich ist.

Ich würde den zweiten Beitrag von Dikran Marsupail schreiben und meine zwei Cent hinzufügen.

Berücksichtigen Sie Ihre Vorkenntnisse über die Auswirkungen, die Sie von Ihren unabhängigen Variablen erwarten. Wenn Sie kleine Effekte erwarten, benötigen Sie eine große Probe. Wenn die Auswirkungen voraussichtlich groß sind, kann eine kleine Stichprobe die Aufgabe übernehmen.

Wie Sie vielleicht wissen, sind Standardfehler eine Funktion der Stichprobengröße. Je größer die Stichprobengröße, desto kleiner die Standardfehler. Wenn also die Effekte klein sind, dh nahe Null sind, kann nur ein kleiner Standardfehler diesen Effekt erkennen, dh um zu zeigen, dass er sich signifikant von Null unterscheidet. Wenn der Effekt jedoch groß ist (weit von Null entfernt), führt selbst ein großer Standardfehler zu signifikanten Ergebnissen.

Wenn Sie eine Referenz benötigen, schauen Sie sich Andrew Gelmans 'Blog an.


1
Gelmans Blog wird ziemlich groß :-). Haben Sie einen bestimmten Beitrag im Sinn?
whuber

@ Whuber, du hast recht, ich hätte auf etwas spezifischeres hinweisen sollen. Er hat einige aktuelle Vortragspräsentationen über kleine Effekte und mehrere Vergleiche, aber ich denke, der folgende Link reicht aus: stat.columbia.edu/~gelman/research/published/power4r.pdf
Manoel Galdino

1
Dieser Link in den Kommentaren ist tot und es gibt keinen Verweis auf einen bestimmten Beitrag des erwähnten Blogs
baxx

0

Es scheint, dass wir, um eine akzeptable Schätzung zu erhalten, die Regeln anwenden müssen, die von anderen Forschern untersucht wurden. Ich stimme den beiden oben genannten Faustregeln zu (10 obs für jede Sorte und die Formel von Harrell). Hier gibt es eine andere Frage, bei der die Daten offengelegt oder bevorzugt angegeben werden. Hosmer und Lemeshow haben in ihrem Buch eine Regel für offenbarte und Louviere und Hensher in ihrem Buch (Die Methoden der angegebenen Präferenz) eine Regel für angegebene Präferenzdaten angegeben


2
Dies würde von einer ausführlicheren Erklärung sowie vollständigen und präzisen Referenzen profitieren.
Nick Cox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.