Schätzung der Wahrscheinlichkeit in einem Bernoulli-Prozess durch Stichprobe von bis zu 10 Fehlern: Ist es voreingenommen?


15

Angenommen, wir haben einen Bernoulli-Prozess mit der Ausfallwahrscheinlichkeit (der klein sein wird, z. B. ), aus dem wir eine Stichprobe erstellen, bis wir auf Fehler stoßen . Wir schätzen die Ausfallwahrscheinlichkeit als wobei die Anzahl der Stichproben ist.q 0,01 10 q : = 10 / N Nqq0.0110q^:=10/NN

Frage : Ist eine voreingenommene Schätzung von ? Und wenn ja, gibt es eine Möglichkeit, dies zu korrigieren? qq^q

Ich bin besorgt, dass das Beharren auf der letzten Stichprobe einen Fehler darstellt, der die Schätzung verzerrt.


5
Die aktuellen Antworten liefern nicht mehr den Schätzer für die unverzerrte Minimalvarianz . Siehe Abschnitt über Stichproben und Punktschätzung im Wikipedia-Artikel zur negativen Binomialverteilung . (101)/(N1)
A. Webb

Antworten:


10

Es ist wahr , dass q eine vorgespannte Schätzung ist q in dem Sinne , dass E ( q ) q , aber man sollte nicht unbedingt läßt dies abschrecken. Dieses genaue Szenario kann als Kritik gegen die Idee verwendet werden, dass wir immer unvoreingenommene Schätzer verwenden sollten, da hier die Verzerrung eher ein Artefakt des jeweiligen Experiments ist, das wir gerade durchführen. Die Daten sehen genauso aus, als ob wir die Anzahl der Stichproben im Voraus ausgewählt hätten. Warum sollten sich unsere Schlussfolgerungen ändern?q^qE(q^)q

Wenn Sie Daten auf diese Weise erfassen und dann die Wahrscheinlichkeitsfunktion sowohl für das Binomialmodell (feste Stichprobengröße) als auch für das negative Binomialmodell aufschreiben, stellen Sie interessanterweise fest, dass beide proportional zueinander sind. Dies bedeutet , dass q nur die gewöhnliche Maximum - Likelihood - Schätzung unter dem negativen Binomialmodells ist, was natürlich eine vollkommen vernünftige Schätzung ist.q^


Groß! Es sieht so aus, als ob (für meine Zwecke) diese Tendenz kein Problem darstellt.
Becky

9

Es besteht nicht darauf, dass die letzte Stichprobe ein Fehler ist, der die Schätzung verzerrt, sondern den Kehrwert von N

Also in deinem Beispiel aber E[10E[N10]=1q. Dies kommt einem Vergleich des arithmetischen Mittels mit dem harmonischen Mittel naheE[10N]q

Die schlechte Nachricht ist, dass die Vorspannung zunehmen kann , wenn kleiner wird, wenn auch nicht viel, wenn q bereits klein ist. Die gute Nachricht ist, dass die Vorspannung abnimmt, wenn die erforderliche Anzahl von Fehlern zunimmt. Es scheint, dass, wenn Sie f Fehler benötigen , die Vorspannung oben durch einen multiplikativen Faktor von f begrenzt wirdqqf für kleinesq; Sie möchten diesen Ansatz nicht, wenn Sie nach dem ersten Ausfall anhalten ff1q

Stoppen nach Ausfällen, mit q = 0,01 Sie erhalten E [ N10q=0.01aber E[10E[N10]=100, während beiq=0,001Sie erhaltenE[NE[10N]0.011097q=0.001aber E[10E[N10]=1000. Ein Bias von ungefähr10E[10N]0.001111 multiplikativer Faktor 109


7

Als Ergänzung zu dsaxton Antwort, sind hier einige Simulationen in R die Sampling - Verteilung zeigt , q , wenn k = 10 und q 0 = 0,02 :q^k=10q0=0.02

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

Es sieht aus wie , die ein eher kleine Vorspannung in Bezug auf die Variabilität in ist q .E[q^]0.022q^

Histogramm von q_hat


1
Das ist sehr hilfreich. Auf dieser Ebene ist es nicht wert, dass ich mir Sorgen mache.
Becky

2
Sie können diese Simulation prägnanter schreiben als10+rnbinom(10000,10,0.02)
A. Webb

@ A.Webb danke, das ist ein guter Punkt. Ich habe das Rad wirklich neu erfunden. Ich muss? Rnbinom lesen und dann bearbeite ich meinen Beitrag
Adrian

1
Das wäre 10/(10+rnbinom(10000,10,0.02)). Die Parametrisierung bezieht sich eher auf die Anzahl der Erfolge / Misserfolge als auf die Gesamtzahl der Versuche. Sie müssen also k = 10 zurückaddieren. Man beachte, dass der unverzerrte Schätzer 9/(9+rnbinom(10000,10,0.02))ein Zähler und ein Nenner weniger wäre .
A. Webb
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.