Berücksichtigung der Unsicherheit von p bei der Schätzung des Mittelwerts einer Binomialverteilung

Ich habe eine Binomialverteilung mit den Parametern und , und die Schätzung für den Mittelwert meiner Verteilung ist N . Die Werte von und sind so, dass wir die Gaußsche Näherung verwenden können, um das des Mittelwerts als schätzen. Das Problem ist, dass ich bereits geschätzt habe , also ist eigentlich eine Gaußsche Verteilung mit einem bekannten Mittelwert und einem . Mein Ziel ist es, ein Konfidenzintervall für den Mittelwert meiner Binomialverteilung zu finden, aber wie berücksichtige ich die Unsicherheit von ? $N$ $p$ $\times p$ $N$ $p$ $\sigma$ $\sqrt{(n\times p (1-p)}$ $p$ $p$ $\sigma$ $p$

— Helga Holmestad
quelle

Es gibt mehrere Probleme mit Ihrem Ansatz. Zunächst möchten Sie Konfidenzintervalle für etwas verwenden, für das sie nicht entwickelt wurden. Wenn variiert, zeigt das Konfidenzintervall nicht , wie es variiert. Überprüfen Sie, warum ein 95% -Konfidenzintervall (CI) keine 95% ige Chance bedeutet, den Mittelwert zu enthalten. um mehr über Konfidenzintervalle zu erfahren. Darüber hinaus ist die Verwendung einer normalen Näherung für das Binomialverhältnis und seine Konfidenzintervalle keine gute Idee, wie von Brown et al. (2001) beschrieben . $p$

Aus Ihrer Beschreibung geht hervor, dass Sie das glaubwürdige Bayes'sche Intervall schätzen möchten , dh das Intervall, das einen bestimmten Bruchteil der Verteilung von . Ja, ich sagte Bayesian , da in der Tat Sie bereits Ihr Problem als Bayes - Modell definiert. Sie sagen, dass Sie annehmen, dass eine Zufallsvariable ist, während in der Frequentist-Einstellung ein fester Parameter wäre. Wenn Sie es bereits angenommen haben, warum nicht ein Bayes'sches Modell für Ihre Daten verwenden? Sie würden das Beta-Binomial-Modell verwenden (siehe auch Eine Einführung in das Beta-Binomial-Modell $p$ $p$ $p$ Papier von Dan Navarro und Amy Perfors). In solchen Fällen ist es äußerst einfach, ein solches Modell abzuschätzen. Wir können es wie folgt definieren:

X \sim B i n o m i a l (N, p) p \sim B e t a (α, β)

$X \sim \mathrm{Binomial}(N, p) \\ p \sim \mathrm{Beta}(\alpha, \beta)$

Ihre Daten folgen also der durch und parametrisierten Binomialverteilung , wobei eine Zufallsvariable ist. Wir gehen von einer Beta-Verteilung mit den Parametern und als Prior für . Ich denke , dass , wenn Sie frequentistischen Methode verwenden wollen, Sie keine haben , bevor das Wissen über mögliche Verteilung von , so würden Sie wählen „uninformativ“ vor parametrisiert durch , oder (Wenn Sie möchten, können Sie diese Parameter in übersetzen $X$ $N$ $p$ $p$ $\alpha$ $\beta$ $p$ $p$ $\alpha = \beta = 1$ $\alpha = \beta = 0.5$ Mittelwert und Präzision oder Mittelwert und Varianz ). Nach der Aktualisierung Ihrer vorherigen ist die posteriore Verteilung von einfach eine Beta-Verteilung, die von parametrisiert wird $p$

α^{'} = α + total number of successes β^{'} = β + total number of failures

$\alpha' = \alpha + \text{total number of successes} \\ \beta' = \beta + \text{total number of failures}$

mit gemein

E (X) = N \frac{α^{'}}{α^{'} + β^{'}}

$E(X) = N \frac{\alpha'}{\alpha'+\beta'}$

Weitere Informationen zur Berechnung anderer Mengen dieser Verteilung finden Sie im Wikipedia-Artikel zur Beta-Binomial-Verteilung . Sie können glaubwürdige Intervalle numerisch berechnen, indem Sie entweder (a) die kumulative Verteilungsfunktion der Beta-Binomialverteilung numerisch invertieren oder (b) eine große Anzahl von Zufallswerten aus der Beta-Binomialverteilung abtasten und dann Stichprobenquantile daraus berechnen . Der zweite Ansatz ist ziemlich einfach, da Sie nur den folgenden Vorgang nacheinander wiederholen müssen:

Zeichnen Sie aus der Beta-Verteilung, die durch und parametrisiert ist. $p$ $\alpha'$ $\beta'$

Zeichnen Sie aus der durch und parametrisierten Binomialverteilung . $x$ $p$ $N$

bis Sie eine Probe ziehen, die groß genug ist, um sie für die Berechnung der interessierenden Mengen sicher zu finden.

Wenn Sie den Mittelwert und die Standardabweichung von und darauf bestehen, die Normalverteilung dafür zu verwenden, können Sie natürlich auch die Simulation verwenden, aber die Normalverteilung zur Simulation der Werte von . Unten gebe ich ein Codebeispiel in R für eine solche Simulation. $p$ $p$

R <- 1e5                       # number of samples to draw in simulation
N <- 500                       # known N
mu <- 0.3                      # known mean of p
sigma <- 0.07                  # known standard deviation of p
p <- rnorm(R, mu, sigma)       # simulate p
x <- rbinom(R, N, p)           # simulate X
mean(x)                        # estimate for mean of X
quantile(p*N, c(0.025, 0.975)) # 95% interval estimate for variability of E(X)

Oder Sie können einfach geeignete quantiles nehmen mit Inverse der normalen Verteilungsfunktion und multiplizieren Sie sie mit . Denken Sie jedoch daran, dass dies kein Konfidenzintervall ist, sondern ein glaubwürdiges Intervall. $N$

Brown, LD, Cai, TT & DasGupta, A. (2001). Intervallschätzung für einen Binomialanteil. Statistical Science, 101-117.

— Tim
quelle

Danke, dass du mir geantwortet hast. Ich denke, der zweite Ansatz ist für mich am nützlichsten. Ich habe keine Erfahrung mit Bayes'schen Statistiken, daher muss ich mehr darüber und über die Beta-Verteilung lesen. Ich habe nur eine Frage zu Schritt 1 im zweiten Ansatz: Warum sollte ich aus der Beta-Distribution ziehen und nicht aus der Distribution, von der ich weiß, dass p sie hat?

— Helga Holmestad

@HelgaHolmestad, weil Sie annehmen würden, dass p aus der Beta-Verteilung stammt;) Beta ist eine viel bessere Verteilung für p als normal - es ist in [0,1] begrenzt, während die Normalverteilung von bis . Selbst wenn Ihnen aus irgendeinem Grund Mittelwert und Varianz von p im Voraus bekannt sind, können Sie leicht solche Beta-Parameter finden, die dem Mittelwert und der Varianz entsprechen, die Sie bereits kennen (siehe stats.stackexchange.com/questions/12232/…). ).

- \infty

$-\infty$

+ \infty

$+\infty$

— Tim