Konfidenzintervall um Binomialschätzung von 0 oder 1


36

Was ist die beste Methode, um ein Konfidenzintervall eines Binomialversuchs zu berechnen, wenn Sie (oder ähnlich p = 1 ) schätzen und die Stichprobengröße relativ klein ist, zum Beispiel n = 25 ?p=0p=1n=25


Wie nahe Null ist p ? Ist es oft Null oder in der Größenordnung von 0,001 oder 0,01 oder ...? Und wie viele Daten haben Sie? p^
Jbowman

Wir haben normalerweise mehr als 800 Versuche. Wir erwarten , dass in der Regel 0 bis 0,1 für pp^
AI2.0

Verwenden Sie das von Ihnen verknüpfte Clopper-Pearson-Intervall. Das allgemeine Prinzip: Versuchen Sie zuerst das Clopper-Pearson-Intervall. Wenn der Computer die Antwort nicht erhält, versuchen Sie es mit der Annäherungsmethode, z. B. mit der normalen Annäherung. Aufgrund der aktuellen Computergeschwindigkeit glaube ich nicht, dass wir in den meisten Situationen eine Annäherung benötigen.
user158565

Um nur die Obergrenze des Konfidenzintervalls mit (1 - Konfidenzniveau) zu erhalten, verwenden wir einfach B (1 - α ; x + 1, n - x), wobei x die Anzahl der Erfolge (oder Misserfolge) ist, n ist In Python verwenden wir nur . Wenn dies TRUE ist, können wir daraus schließen, dass wir 1 - α sicher sind, dass die Obergrenze durch den Wert begrenzt ist, den wir aus berechnen ?ααscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x) αscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)
AI2.0

1
Bei 800 Versuchen funktioniert die übliche normale Näherung ziemlich gut bis auf etwa (meine Simulationen ergaben eine tatsächliche Abdeckung von 94,5% bei einem Konfidenzintervall von 95%.) Bei 1000 Versuchen und p = 0,01 betrug die tatsächliche Abdeckung etwa 92,7%. (Alle basieren auf 100.000 Replikationen.) Dies ist also nur ein Problem für einen sehr niedrigen p-Wert , wenn man die Anzahl der Versuche berücksichtigt. p=0.015p=0.01p
Jbowman

Antworten:


53

Verwenden Sie nicht die normale Annäherung

Über dieses Problem ist schon viel geschrieben worden. Ein allgemeiner Rat ist, niemals die normale Annäherung (dh das asymptotische / Wald-Konfidenzintervall) zu verwenden, da es schreckliche Abdeckungseigenschaften hat. R-Code zur Veranschaulichung:

library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")

Erfassungswahrscheinlichkeiten für asymptotische Konfidenzintervalle für einen Binomialanteil.

Für kleine Erfolgswahrscheinlichkeiten fordern Sie möglicherweise ein Konfidenzintervall von 95% an, aber tatsächlich erhalten Sie beispielsweise ein Konfidenzintervall von 10%!

Empfehlungen

Also, was sollen wir verwenden? Ich glaube, dass die aktuellen Empfehlungen diejenigen sind, die in der Veröffentlichung Interval Estimation for a Binomial Proportion von Brown, Cai und DasGupta in Statistical Science 2001, vol. 16, nein. 2, Seiten 101–133. Die Autoren untersuchten verschiedene Methoden zur Berechnung von Konfidenzintervallen und kamen zu folgendem Ergebnis.

[W] Wir empfehlen das Wilson-Intervall oder das gleichschwänzige Jeffreys-Intervall für kleine n und das in Agresti und Coull vorgeschlagene Intervall für größere n .

Das Wilson-Intervall wird manchmal auch als Bewertungsintervall bezeichnet , da es auf der Invertierung eines Bewertungstests basiert.

Berechnung der Intervalle

Um diese Konfidenzintervalle zu berechnen, können Sie diesen Online-Rechner oder die binom.confint()Funktion im binomPaket in R verwenden. Für 0 Erfolge in 25 Versuchen wäre der R-Code beispielsweise:

> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
  type="central")
         method x  n  mean  lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2         bayes 0 25 0.019  0.000 0.073
3        wilson 0 25 0.000  0.000 0.133

Hier bayesist das Jeffreys-Intervall. (Das Argument type="central"wird benötigt, um das gleichseitige Intervall zu erhalten.)

Beachten Sie, dass Sie sich vor der Berechnung des Intervalls für eine der drei Methoden entscheiden sollten . Wenn Sie sich alle drei ansehen und die kürzeste auswählen, erhalten Sie natürlich eine zu geringe Abdeckungswahrscheinlichkeit.

Eine schnelle, ungefähre Antwort

Als abschließende Bemerkung, wenn Sie genau Null Erfolge in Ihrer beobachten n Studien und wollen einfach nur eine sehr schnelle ungefähre Konfidenzintervall, können Sie die Verwendung der Regel von drei . Teilen Sie einfach die Zahl 3 durch n . Im obigen Beispiel ist n 25, die obere Grenze ist also 3/25 = 0,12 (die untere Grenze ist natürlich 0).


Vielen Dank für Ihre Antwort. Stellen Sie sich dieses reale Beispiel vor: Ein Architekt muss in einem Wolkenkratzer prüfen, ob alle Dämmplatten in den Decken korrekt installiert sind. Er öffnet 25 Deckenpaneele auf einer zufälligen Auswahl von Böden und findet vor allem diese Deckenpaneele isolierend. Können wir also mit 95% iger Sicherheit auf der Grundlage des Wilson-Bewertungsintervalls schließen, dass die tatsächliche Wahrscheinlichkeit für eine Dämmplatte zwischen CI [0,867 und 1] liegt?
Kasper

2
Ich würde nicht sagen, dass Sie es mit "95% Sicherheit" schließen können (Google für "korrekte Interpretation der Vertrauensbereiche"). Dies basiert auch auf der Annahme unabhängiger Studien mit gleichen Erfolgswahrscheinlichkeiten, die hier möglicherweise nicht realistisch sind. Vielleicht hatten die zuletzt installierten Paneele ein höheres Risiko, falsch installiert zu werden (die Person, die sie installierte, wurde müde / gelangweilt). Oder vielleicht waren es die ersten, da die Person damals weniger erfahren war. Wie auch immer, wenn der Architekt angewiesen wurde, zu testen, ob alle Paneele korrekt installiert sind, sollte er seine Arbeit tun und nicht nur ein Muster testen!
Karl Ove Hufthammer

5
bayesverwendet den Uniform-Prior (anstelle von Jeffreys), wenn beide Formparameter 1 sind. Ich habe dem Betreuer des Binom-Pakets aus Neugier über die (Un-) Vorteile von Jeffreys vs. Uniform-Prior eine E-Mail geschickt und er hat mir mitgeteilt, dass eine neue Version verwendet werden wird die Uniform vor als Standard. Wundern Sie sich also nicht, ob die Ergebnisse in Zukunft leicht variieren.
cbeleites unterstützt Monica am

3
Dies ist eine hervorragende Antwort. Es vermittelt alle wichtigen Informationen, die Sie in Veröffentlichungen zum Thema lesen können, aber sehr kurz und klar. Wenn ich zweimal stimmen könnte, würde ich.
SigmaX

6
Die binconfMethode Hmiscberechnet auch diese Intervalle. Standardmäßig wird die Wilson-Methode verwendet.
SigmaX

0

p±zα/2p(1p)/nπ0π0π0

|pπ0|p(1p)/n=0
(1+z02/n)π02+(2pz02/n)π0+p2=0


1
π0

π0pn

Das ist Agresti.
Nick Cox

@ NickCox es ist eine andere Arbeit
Jay Schyler Raadt

1
Alan Agresti hat verschiedene Texte veröffentlicht. Ich vermute, Sie spielen auf eine Einführung in die kategoriale Datenanalyse (2. Ausgabe 2007; 3. Ausgabe geplant für die Veröffentlichung im Oktober 2018 und möglicherweise mit Datum 2019) von John Wiley an.
Nick Cox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.