Hier gibt es mehrere Probleme.
In der Regel möchten wir eine minimale Stichprobengröße festlegen, um eine minimal akzeptable statistische Leistung zu erzielen . Die erforderliche Stichprobengröße hängt von mehreren Faktoren ab, in erster Linie von der Stärke des Effekts, den Sie von 0 unterscheiden möchten (oder von der Null, die Sie verwenden, aber am häufigsten von 0), und von der minimalen Wahrscheinlichkeit, diesen Effekt aufzufangen will haben. Aus dieser Perspektive wird die Stichprobengröße durch eine Leistungsanalyse bestimmt.
Eine weitere Überlegung ist die Stabilität Ihres Modells (wie @cbeleites feststellt). Im Grunde genommen als das Verhältnis der Parameter auf die Anzahl von Daten geschätzt wird nahe 1, Modell gesättigt werden wird, und wird notwendigerweise sein Überanpassung (es sei denn , es gibt in der Tat keine Zufälligkeit im System). Die Faustregel des Verhältnisses 1 zu 10 ergibt sich aus dieser Perspektive. Beachten Sie, dass eine ausreichende Leistung in der Regel dieses Problem für Sie abdeckt, nicht jedoch umgekehrt.
Die 1 bis 10-Regel stammt jedoch aus der Welt der linearen Regression, und es ist wichtig zu erkennen, dass die logistische Regression zusätzliche Komplexitäten aufweist. Ein Problem ist, dass die logistische Regression am besten funktioniert, wenn der Prozentsatz der Einsen und Nullen ungefähr 50% / 50% beträgt (wie in den obigen Kommentaren unter @andrea und @psj erläutert). Ein weiteres Problem ist die Trennung . Das heißt, Sie möchten nicht, dass sich alle Ihre Einsen auf einem Extrem einer unabhängigen Variablen (oder einer Kombination davon) und alle Nullen auf dem anderen Extrem befinden. Dies scheint zwar eine gute Situation zu sein, da dies eine perfekte Vorhersage erleichtern würde, führt jedoch tatsächlich dazu, dass der Parameterschätzungsprozess in die Luft sprengt. (@Scortchi hat hier eine ausgezeichnete Diskussion darüber, wie man mit Trennung in logistischen Regressionen umgeht:Wie gehe ich mit perfekter Trennung in der logistischen Regression um? ) Mit mehr Infusionen wird dies wahrscheinlicher, selbst wenn die tatsächlichen Größen der Effekte konstant gehalten werden, und insbesondere, wenn Ihre Reaktionen unausgewogen sind. Somit können Sie problemlos mehr als 10 Daten pro IV benötigen.
Ein letztes Problem mit dieser Faustregel ist, dass davon ausgegangen wird, dass Ihre Infusionen orthogonal sind . Dies ist für geplante Experimente sinnvoll, aber bei Beobachtungsstudien wie Ihrer sind Ihre IVs fast nie ungefähr orthogonal. Es gibt Strategien, um mit dieser Situation umzugehen (z. B. IVs kombinieren oder löschen, zuerst eine Hauptkomponentenanalyse durchführen usw.). Wenn dies jedoch nicht behoben wird (was häufig vorkommt), benötigen Sie mehr Daten.
Eine vernünftige Frage ist dann, wie hoch Ihr Minimum an N sein sollte und / oder ob Ihre Stichprobengröße ausreicht. Um dies zu beheben, empfehle ich Ihnen, die von @cbeleites diskutierten Methoden zu verwenden. Sich auf die 1 bis 10-Regel zu verlassen, ist nicht ausreichend.
1
) und 90 Nicht-Fälle (die0
) sind, lautet die Regel "nur 1 Prädiktor einschließen". Aber was ist, wenn ich die0
s anstelle der1
s modelliere und dann den Kehrwert der geschätzten Quotenverhältnisse nehme? Darf ich 9 Prädiktoren einschließen? Das ergibt für mich keinen Sinn.