normale Annäherung an die Binomialverteilung: Warum np> 5?

9

Nahezu jedes Lehrbuch, in dem die normale Annäherung an die Binomialverteilung erörtert wird, erwähnt die Faustregel, dass die Annäherung verwendet werden kann, wenn $np\geq5$ und . Einige Bücher schlagen stattdessen vor. Dieselbe Konstante zeigt sich häufig in Diskussionen darüber, wann Zellen im Test zusammengeführt werden sollen. Keiner der Texte, die ich gefunden habe, gibt eine Begründung oder Referenz für diese Faustregel. $n(1-p)\geq 5$ $np(1-p)\geq 5$ $5$ $\chi^2$

Woher kommt diese Konstante 5? Warum nicht 4 oder 6 oder 10? Wo wurde diese Faustregel ursprünglich eingeführt?

normal-distribution binomial approximation

— jochen
quelle

5

Es ist eine Faustregel. Wenn es streng wäre, würden Sie den Daumen nicht brauchen.

— Hong Ooi

2

Ich habe auch

und

.

n p (1 - p) > 9

$np(1-p)>9$

n p (1 - p) > 10

$np(1-p)>10$

— Glen_b -State Monica

7

Einige Möglichkeiten bietet der Wikipedia-Artikel über die Binomialverteilung im Abschnitt über die normale Approximation , der derzeit den folgenden Kommentar enthält (Hervorhebung von mir):

Eine andere häufig verwendete Regel ist, dass beide Werte und größer als 5 sein müssen. Die spezifische Anzahl variiert jedoch von Quelle zu Quelle und hängt davon ab, wie gut eine Annäherung sein soll. $np$ $n(1-p)$

Dies ist nun damit verbunden, sicherzustellen, dass die normale Näherung innerhalb der gesetzlichen Grenzen für eine Binomialvariable . $x\sim N(\mu,\sigma)$ $x\in[0,n]$

Um dies zu formulieren: Wenn wir die gewünschte Abdeckungswahrscheinlichkeit in Form eines z-Scores parametrisieren , haben wir $z>0$ Unter Verwendung der Binomialmomenteunderfordern die obigen Einschränkungen

μ \pm z σ \in [0, n]] ⟹ z σ \leq Mindest [μ, n - - μ]] ⟹ z^{2} \leq Mindest [\frac{μ^{2}}{σ^{2}}, \frac{(n - - μ)^{2}}{σ^{2}}]]

$\mu \pm z\sigma \in [0,n] \implies z\sigma \leq \min[\,\mu \,,\, n - \mu \,] \implies z^2 \leq \min\left[\,\tfrac{\mu^2}{\sigma^2} \,,\, \tfrac{(n - \mu)^2}{\sigma^2}\,\right]$

μ = n p

$\mu=np$

σ^{2} = n p (1 - p)

$\sigma^2=np(1-p)$

Für diesen Ansatz würde

einer Abdeckungswahrscheinlichkeit von

Mindest [p, 1 - - p]] n \geq z^{2}

$\min\!\big[\,p\,,1-p\,\big]n \geq z^2$

z^{2} = 5

$z^2=5$

wobei

dienormale Standard-CDF ist.

Φ [\sqrt{5}]] - - Φ [- - \sqrt{5}]] \approx 97,5 %.

$\Phi[\sqrt{5}\,]-\Phi[-\sqrt{5}\,]\approx 97.5\%$

Φ

$\Phi$

In dem Maße, in dem diese Überdeckungswahrscheinlichkeit "hübsch" ist und 5 eine schöne runde Zahl ist ... könnte das vielleicht eine Rechtfertigung geben? Ich habe nicht viel Erfahrung mit Wahrscheinlichkeitstexten und kann daher nicht sagen, wie häufig "5" im Vergleich zu anderen "spezifischen Zahlen" verwendet wird, um die Formulierung von Wikipedia zu verwenden. Ich habe das Gefühl, dass 5 nichts Besonderes ist, und Wikipedia schlägt vor, dass 9 ebenfalls häufig vorkommt (entsprechend einem "hübschen" von 3). $z$

— GeoMatt22
quelle

4

Keine vollständige Erklärung, aber es ist interessant, zu Cochran 1952 Annals of Math Stats "Der Test der Anpassungsgüte" ( http://www.jstor.org/stable/2236678 ), Teil II ("Einige Aspekte") zurückzukehren der praktischen Anwendung des Tests "), der auf diesem Gebiet von ziemlich respektabler Antike ist ... Cochran diskutiert die Geschichte der theoretischen Grundlagen des Tests (Pearson 1900, Fisher 1922, 1924), berührt aber nicht den Faustregel bis zur folgenden Passage ... [Hervorhebung hinzugefügt] $\chi^2$

7. Die Mindesterwartung . Da x2 als Grenzverteilung von X2 in großen Stichproben festgelegt wurde, ist es üblich, in Testanwendungen zu empfehlen, dass die kleinste erwartete Anzahl in einer Klasse 10 oder (bei einigen Autoren) 5 beträgt. ... Dies Das Thema wurde kürzlich unter den Psychologen heftig diskutiert [17] [18]. Die Nummern 10 und 5 scheinen willkürlich gewählt worden zu sein. Einige Untersuchungen werfen ein Licht auf die Angemessenheit der Regel. Der Ansatz bestand darin, die genaue Verteilung von X2 zu untersuchen, wenn einige oder alle Erwartungen gering sind, entweder durch mathematische Methoden oder durch Stichprobenversuche.

Die Untersuchungen sind spärlich und eng gefasst, wie zu erwarten ist, da Arbeiten dieser Art zeitaufwändig sind. Daher müssen die unten angegebenen Empfehlungen möglicherweise geändert werden, wenn neue Beweise verfügbar werden.

Um einen Moment abzuschweifen, ist das Problem der Untersuchung des Verhaltens von X2 bei geringen Erwartungen ein Beispiel für eine ganze Klasse von Problemen, die für die angewandte Statistik relevant sind. In Anwendungen ist es alltäglich, die Ergebnisse einer Theorie in Situationen zu verwenden, in denen wir wissen oder stark vermuten, dass einige der Annahmen in der Theorie ungültig sind. Daher enthält die Literatur Untersuchungen zur t-Verteilung, wenn die Elternpopulation nicht normal ist, und zur Leistung linearer Regressionsschätzungen, wenn die Regression in der Population tatsächlich nichtlinear ist. Zum Glück für Anwendungen bleiben die Ergebnisse der Theorie manchmal im Wesentlichen wahr, selbst wenn einige Annahmen nicht zutreffen. Diese Tatsache macht die Statistik tendenziell verwirrender als die reine Mathematik.

— Ben Bolker
quelle

1

$n$ $p$

$np \geq 5$ $n=50$ $np = 5.5$ $np = 6.5$ $np = 7.5$

$p'$ $p' = (1 - p)$

$n$ $p$

import matplotlib.pyplot as plt
import numpy as np
np.random.seed(20190915)


def make_hists(axs, n):
    proportions = np.linspace(0.01, 0.19, len(axs))
    for i, prop in enumerate(proportions):
        # Draw n samples 10,000 times
        x = np.random.rand(n, 10_000) < prop
        means = x.mean(axis=0)
        axs[i].hist(means, bins=np.linspace(0, 0.5, n//2))
        axs[i].set_xlim([0, 0.5])
        axs[i].set_yticklabels([])
        ylim_mean = np.mean(axs[i].get_ylim())
        axs[i].text(-0.08, ylim_mean * 3/2, f'$p={prop:.2f}$', va='center')
        axs[i].text(-0.08, ylim_mean * 2/3, f'$np={n * prop:.1f}$', va='center')
    axs[0].set_title(f'$n={n}$')

def main():
    f, axs = plt.subplots(10, 2, sharex=True, figsize=(12, 8))
    make_hists(axs[:, 0], 50)
    make_hists(axs[:, 1], 250)
    f.suptitle(
        'Histograms of 10,000 sample proportions, varying $p$ and $n$',
        fontsize=14
    )
    plt.show()

main()

— kbrose
quelle

0

Die Regel liefert ein Kriterium, das sicherstellt, dass p weder nahe bei 0 noch bei 1 liegt. Wenn es näher bei 0 oder 1 liegt, ist die resultierende Verteilung keine gute Annäherung an die Normalverteilung.

Eine bildliche Begründung dafür finden Sie hier

— Bach
quelle

2

n p (1 - p) > 10

$np(1-p)>10$