Konfidenzintervall für die Bernoulli-Probenahme


42

Ich habe eine zufällige Stichprobe von Bernoulli-Zufallsvariablen , wobei X i iidrv und P ( X i = 1 ) = p sind und p ein unbekannter Parameter ist.X1...XNXiP(Xi=1)=pp

Offensichtlich kann man einen Schätzwert für finden : p : = ( X 1 + + X N ) / N .pp^:=(X1++XN)/N

Meine Frage ist, wie kann ich ein Konfidenzintervall für erstellen ?p


2
Die Wikipedia enthält Details zur Berechnung der Konfidenzintervalle für die Bernoulli-Probenahme .

Antworten:


52
  • Wenn der Durchschnitt P , nicht in der Nähe ist 1 oder 0 , und die Probengröße n ausreichend groß ist (dh n p > 5 und n ( 1 - p ) > 5 kann das Konfidenzintervall durch eine Normalverteilung abgeschätzt werden , und das so konstruierte Konfidenzintervall:p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • Wenn p = 0 und n > 30 , das 95 % Konfidenzintervall etwa [ 0 , 3p^=0n>3095%(Javanovic und Levy, 1997); das Gegenteil gilt für p =1. In der Literaturstelle wird auch die Verwendung vonn+1undn+b(wobei die Vorinformationen später einbezogen werden)erörtert.[0,3n] p^=1n+1n+b

  • np^

R stellt Funktionen binconf {Hmisc}und binom.confint {binom}die in der folgenden Weise verwendet werden:

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

Agresti, Alan; Coull, Brent A. (1998). "Approximate ist besser als 'exact' für die Intervallschätzung von Binomialproportionen". The American Statistician 52: 119–126.

Jovanovic, BD und PS Levy, 1997. Ein Blick auf die Dreierregel. Der amerikanische Statistiker Vol. 51, Nr. 2, S. 137-139

Ross, TD (2003). "Genaue Konfidenzintervalle für die Schätzung des Binomialanteils und der Poisson-Rate". Computer in Biologie und Medizin 33: 509–531.


3
(+1) Gute Antwort. Dies wird in Zukunft eine Referenz für ähnliche Fragen sein, denke ich. Cross-Posting ist jedoch ungewöhnlich. Tatsächlich glaube ich, dass es verpönt ist, weil es viele Aspekte des Feedback- / Referenzierungs- / Threading- / Kommentarsystems durcheinander bringt. Bitte ziehen Sie in Betracht, eine der Kopien zu entfernen und sie durch einen Link in einem Kommentar zu ersetzen.
Whuber

@whuber danke für das feedback. Ich habe die andere Kopie entfernt.
David LeBauer

Was sind in der ersten Formel z1 und alpha?
Cirdec

z1α/21α/2α

3/n

7

Konfidenzintervalle für maximale Wahrscheinlichkeit

p

β^0=log(p^/(1p^))

αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

p

CI(p)α=1/(1+exp(CI(β0)α)

Dieses CI hat den zusätzlichen Vorteil, dass die Anteile im Intervall zwischen 0 und 1 liegen und das CI immer schmaler als das normale Intervall ist, während es auf dem richtigen Pegel liegt. Sie können dies sehr einfach in R erhalten, indem Sie Folgendes angeben:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

Genaue binomiale Konfidenzintervalle

Y=np^(n,p)p^

CIα=(Fp^1(0.025),Fp^1(0.975))

p

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

Median unverzerrte Konfidenzintervalle

pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

Dies ist auch eine Rechenroutine.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

Die letzten beiden Methoden sind im epitoolsPaket in R implementiert .

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.