EDIT: Tragödie! Meine anfänglichen Annahmen waren falsch! (Oder zumindest im Zweifelsfall - vertrauen Sie dem, was der Verkäufer Ihnen sagt? Trotzdem, haben Sie auch einen Tipp an Morten.) Was meiner Meinung nach eine weitere gute Einführung in die Statistik ist, aber der Teilblattansatz wird jetzt unten hinzugefügt. ( da die Leute das Ganze Blatt zu mögen schienen, und vielleicht wird es noch jemand nützlich finden).
Vor allem ein großes Problem. Aber ich würde es gerne etwas komplizierter machen.
Lassen Sie mich es deshalb vorab etwas einfacher machen und sagen: Die Methode, die Sie gerade anwenden, ist absolut vernünftig . Es ist billig, es ist einfach, es macht Sinn. Wenn Sie sich also daran halten müssen, sollten Sie sich nicht schlecht fühlen. Stellen Sie einfach sicher, dass Sie Ihre Bundles zufällig auswählen. UND, wenn Sie einfach alles zuverlässig wiegen können (Hutspitze zu whuber und user777), dann sollten Sie das tun.
Der Grund, warum ich es etwas komplizierter machen möchte, ist, dass Sie es bereits getan haben - Sie haben uns nur nicht über die ganze Komplikation informiert, das heißt: Zählen braucht Zeit, und Zeit ist auch Geld . Aber wie viel ? Vielleicht ist es tatsächlich billiger, alles zu zählen!
Sie müssen also die Zeit, die Sie zum Zählen benötigen, mit der Menge an Geld, die Sie sparen, abwägen. (WENN Sie dieses Spiel natürlich nur einmal spielen. Wenn Sie das das NÄCHSTE Mal mit dem Verkäufer tun, haben sie möglicherweise einen neuen Trick erprobt. In der Spieltheorie ist dies der Unterschied zwischen Einzelschussspielen und Wiederholt Spiele. Aber vorerst wollen wir so tun, als würde der Verkäufer immer dasselbe tun.)
Noch etwas, bevor ich zur Schätzung komme. (Und es tut mir leid, dass ich so viel geschrieben habe und immer noch nicht auf die Antwort gekommen bin, aber dann ist das eine ziemlich gute Antwort auf Was würde ein Statistiker tun? bevor sie sich wohl fühlten, etwas darüber zu sagen.) Und das Ding ist eine Einsicht, die auf Folgendem basiert:
(BEARBEITEN: WENN SIE TATSÄCHLICH TÄUSCHEN ...) Ihr Verkäufer spart kein Geld, indem er Etiketten entfernt - er spart Geld, indem er keine Blätter druckt . Sie können Ihre Etiketten nicht an andere verkaufen (nehme ich an). Und vielleicht weiß ich es nicht und ich weiß nicht, ob Sie es tun. Sie können nicht ein halbes Blatt von Ihren Sachen und ein halbes Blatt von jemand anderem drucken. Mit anderen Worten, bevor Sie überhaupt angefangen Zählen haben, können Sie davon ausgehen , dass die Gesamtzahl der Etiketten entweder ist 9000, 9100, ... 9900, or 10,000
. So gehe ich es vorerst an.
Die Ganzblattmethode
Wenn ein Problem wie dieses ein wenig knifflig ist (diskret und begrenzt), simulieren viele Statistiker, was passieren könnte. Folgendes habe ich simuliert:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
Dies gibt Ihnen, vorausgesetzt sie verwenden ganze Blätter und Ihre Annahmen sind korrekt, eine mögliche Verteilung Ihrer Etiketten (in der Programmiersprache R).
Dann habe ich das gemacht:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
Dies findet unter Verwendung einer "Bootstrap" -Methode Konfidenzintervalle unter Verwendung von 4, 5, ... 20 Abtastwerten. Mit anderen Worten: Wenn Sie im Durchschnitt N Stichproben verwenden würden, wie groß wäre Ihr Konfidenzintervall? Ich benutze dies, um ein Intervall zu finden, das klein genug ist, um über die Anzahl der Blätter zu entscheiden, und das ist meine Antwort.
Mit "klein genug" meine ich, dass in meinem 95% -Konfidenzintervall nur eine ganze Zahl enthalten ist. Wenn mein Konfidenzintervall beispielsweise bei [93,1, 94,7] liegt, würde ich 94 als die richtige Anzahl von Blättern auswählen, da wir wissen es ist eine ganze Zahl.
Eine weitere Schwierigkeit - Ihr Vertrauen hängt von der Wahrheit ab . Wenn Sie über 90 Blatt verfügen und jeder Stapel über 90 Etiketten verfügt, konvergieren Sie sehr schnell. Gleiches gilt für 100 Blatt. Ich habe mir also 95 Blätter angesehen, bei denen die größte Unsicherheit besteht, und festgestellt, dass Sie für 95% ige Sicherheit durchschnittlich etwa 15 Muster benötigen. Nehmen wir also an, Sie möchten insgesamt 15 Proben nehmen, weil Sie nie wissen, was wirklich da ist.
Nachdem Sie wissen, wie viele Proben Sie benötigen, wissen Sie, dass Sie mit folgenden Einsparungen rechnen müssen:
100Nmissing−15c
Dabei ist die Kosten für das Zählen eines Stapels. Wenn Sie davon ausgehen, dass jede Zahl zwischen 0 und 10 mit gleicher Wahrscheinlichkeit fehlt, liegen Ihre erwarteten Einsparungen bei c $. Aber und hier ist der Punkt, an dem Sie die Gleichung aufstellen müssen: Sie können sie auch optimieren, um Ihr Vertrauen in die Anzahl der von Ihnen benötigten Proben zu verlieren. Wenn Sie mit der Gewissheit einverstanden sind, dass Sie 5 Proben erhalten, können Sie auch berechnen, wie viel Sie dort verdienen. (Und Sie können mit diesem Code spielen, um das herauszufinden.)500 - 15 ∗c500−15∗
Aber Sie sollten auch den Typen dafür belasten, dass er Sie dazu gebracht hat, all diese Arbeit zu erledigen!
(EDIT: ADDED!) Der Partial Sheet Approach
Okay, nehmen wir also an, dass das, was der Hersteller sagt, wahr ist und nicht beabsichtigt ist - ein paar Etiketten gehen einfach in jedem Blatt verloren. Sie möchten immer noch wissen, über wie viele Labels insgesamt?
Dieses Problem ist anders, weil Sie keine schöne saubere Entscheidung mehr treffen können - das war ein Vorteil für die Annahme von Whole Sheet. Früher gab es nur 11 mögliche Antworten - jetzt gibt es 1100 Antworten. Wenn Sie ein Konfidenzintervall von 95% für genau die Anzahl der Etiketten erhalten, werden wahrscheinlich viel mehr Proben entnommen, als Sie möchten. Mal sehen, ob wir uns das anders überlegen können.
Da es wirklich darum geht, dass Sie eine Entscheidung treffen, fehlen uns noch einige Parameter - wie viel Geld sind Sie bereit, in einem einzigen Deal zu verlieren, und wie viel Geld kostet es, einen Stapel zu zählen. Aber lassen Sie mich festlegen, was Sie mit diesen Zahlen machen können.
Wenn Sie erneut simulieren (obwohl dies für user777 empfohlen wird, wenn Sie es nicht tun können!), Ist es informativ, die Größe der Intervalle zu überprüfen, wenn Sie eine andere Anzahl von Samples verwenden. Das geht so:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
Diesmal wird davon ausgegangen, dass jeder Stapel eine einheitlich zufällige Anzahl von Etiketten zwischen 90 und 100 enthält, und Sie erhalten:
Wenn die Dinge wirklich so aussehen würden, als wären sie simuliert worden, wäre der wahre Mittelwert ungefähr 95 Samples pro Stapel, was niedriger ist als die Wahrheit - dies ist tatsächlich ein Argument für den Bayes'schen Ansatz. Aber es gibt Ihnen ein nützliches Gefühl dafür, wie viel sicherer Sie über Ihre Antwort werden, wenn Sie weiter probieren - und Sie können jetzt die Kosten für die Probennahme explizit mit dem Preis abwägen, zu dem Sie kommen.
Was ich mittlerweile weiß, wir sind alle sehr neugierig.