Eine binomische Zufallsvariable mit Versuchen und Erfolgswahrscheinlichkeit p kann mehr als zwei Werte annehmen. Die binomiale Zufallsvariable repräsentiert die Anzahl der Erfolge in diesen N - Studien, und kann in der Tat nehmen N + 1 unterschiedliche Werte ( 0 , 1 , 2 , 3 , . . . , N ). Wenn also die Varianz dieser Verteilung unter den Binomialannahmen größer ist als zu erwarten (vielleicht gibt es beispielsweise überschüssige Nullen), ist dies ein Fall von Überdispersion. N.pN.N.+ 10 , 1 , 2 , 3 , . . . , N.
Eine Überdispersion ist für eine Bernoulli-Zufallsvariable ( ) nicht sinnvoll.N=1
Im Kontext einer logistischen Regressionskurve können Sie eine "kleine Schicht" oder Gruppierung durch einen engen Bereich von Prädiktorwerten als Realisierung eines Binomialversuchs betrachten (möglicherweise haben wir 10 Punkte in der Schicht mit einer bestimmten Anzahl von Erfolge und Misserfolge). Auch wenn wir nicht wirklich mehrere Versuche bei jedem Prädiktorwert haben und Proportionen anstelle von Rohzählungen betrachten, würden wir dennoch erwarten, dass der Anteil jeder dieser "Schichten" nahe an der Kurve liegt. Wenn diese "Schichten" dazu neigen, weit von der Kurve entfernt zu sein, gibt es zu viel Variabilität in der Verteilung. Indem Sie die Beobachtungen gruppieren, erstellen Sie Realisierungen von binomialen Zufallsvariablen, anstatt die 0/1-Daten einzeln zu betrachten.
Das folgende Beispiel stammt aus einer anderen Frage auf dieser Site. Nehmen wir an, die blauen Linien repräsentieren den erwarteten Anteil über den Bereich der Prädiktorvariablen. Die blauen Zellen zeigen beobachtete Fälle an (in diesem Fall Schulen). Dies stellt eine grafische Darstellung, wie Überdispersion kann aussehen. Beachten Sie, dass es Fehler bei der Interpretation der Zellen des folgenden Diagramms gibt, aber es gibt eine Vorstellung davon, wie sich eine Überdispersion manifestieren kann.