Wie viel muss ich bezahlen? Ein praktisches Problem


66

Dies ist keine Hausaufgabenfrage, sondern ein echtes Problem, mit dem unser Unternehmen konfrontiert ist.

Vor kurzem (vor 2 Tagen) haben wir bei einem Händler die Herstellung von 10000 Produktetiketten bestellt. Der Händler ist eine unabhängige Person. Er lässt die Etiketten von außen herstellen und bezahlt sie an den Händler. Jedes Etikett kostet genau 1 US-Dollar für das Unternehmen.

Gestern kam der Händler mit Etiketten, aber die Etiketten wurden in einer Packung mit jeweils 100 Etiketten gebündelt. Auf diese Weise gab es insgesamt 100 Päckchen und jedes Päckchen enthielt 100 Etiketten, also insgesamt 10000 Etiketten. Bevor wir eine Zahlung an den Händler in Höhe von 10000 US-Dollar leisten, haben wir beschlossen, nur wenige Päckchen zu zählen, um sicherzustellen, dass jedes Päckchen genau 100 Etiketten enthält. Als wir die Etiketten gezählt haben, haben wir eine Packung mit weniger als 100 Etiketten gefunden (wir haben 97 Etiketten gefunden). Um sicherzustellen, dass dies nicht zufällig, sondern absichtlich geschehen ist, haben wir 5 weitere Pakete gezählt und in jedem Paket die folgende Anzahl von Etiketten gefunden (einschließlich des ersten Pakets):

Packet Number    Number of labels
1                97 
2                98  
3                96
4                100
5                95 
6                97  

Es war nicht möglich, jedes einzelne Paket zu zählen, daher haben wir uns für eine durchschnittliche Zahlung entschieden. Die durchschnittliche Anzahl der Etiketten in sechs Paketen beträgt 97,166, sodass die Gesamtzahlung bei 9716 USD lag.

Ich möchte nur wissen, wie Statistiker mit solchen Problemen umgegangen sein müssen .
Außerdem möchte ich wissen, wie viel wir bezahlen müssen, um zu 95% sicher zu sein, dass wir nicht mehr als die tatsächliche Anzahl ganzer Etiketten bezahlt haben.

Zusätzliche Information:

P (jedes Paket enthielt mehr als 100 Etiketten) = 0
P (jedes Paket enthielt Etiketten weniger als 90) = 0 {Etiketten weniger als 90 würden beim Zählen von Paketen leicht erkannt werden, da das Paket ein geringeres Gewicht hätte}


EDIT: Händler einfach von solchen Fehlverhalten bestritten. Wir haben festgestellt, dass diese Händler auf einer bestimmten Provision arbeiten, die sie vom Hersteller erhalten, wenn sie von der Firma bezahlt werden. Als wir direkt mit dem Hersteller kommunizierten, stellten wir fest, dass es weder Hersteller- noch Händlerfehler sind. Der Hersteller sagte: „Etiketten werden kurz, weil die Größe der Blätter nicht standardisiert ist und unabhängig von der Anzahl der Einzelblätter, die sie zu einem Paket bündeln“.

Darüber hinaus erhalten wir unsere erste Behauptung in Bezug auf zusätzliche Informationen bestätigt, da der Hersteller zugegeben hat, dass es nicht möglich ist, zusätzliche Etiketten zu schneiden, wenn die Blattgröße geringfügig verringert wird 100 Etiketten exakt gleicher Größe.


7
+1 (1) Wie können Sie die erste Behauptung im Abschnitt "Zusätzliche Informationen" rechtfertigen? (2) Wie genau können Sie die Pakete wiegen?
whuber

15
England und Isaac Newton standen vor 300 Jahren vor dem gleichen Problem. (Die Einsätze waren etwas höher, da es sich bei den "Etiketten" um geprägte Münzen handelte.) Lesen Sie daher Stephen Stiglers Bericht über den Pyx-Prozess unter stat.wisc.edu/sites/default/files/TR442_0.pdf .
Whuber

7
@Neeraj Wenn die Gewichte aller Artikel gleich sind, warum nicht einfach die gesamte Lieferung wiegen?
Setzen Sie Monica am

9
Bieten Sie an, 9000 US-Dollar zu zahlen, und warten Sie, bis sie sagen: "Aber wir haben Sie nur auf 600 und nicht auf 1000 gekürzt."
Dean MacGregor

5
Abgesehen von der großen Statistikfrage +1 wollte ich einen direkteren Ratschlag aus den Jahren im Druckgeschäft geben: Alle richtigen, professionellen Drucker haben eine Überlauf- / Unterlaufrichtlinie wie diese, da die meisten Drucker keine exakten Zählungen anbieten alles, was keine "Nummerierung" verwendet (einzelne Seriennummern). Aber sie sollten eine exzellente Zählung dessen haben, was sie Ihnen gegeben haben, und wenn Sie den Rabatt verkürzt haben, sind Sie mehr als minderjährig (sagen wir, 5%). Es ist NICHT Standard, den vollen Preis für bekannte Unterschreitungen in Rechnung zu stellen.
BrianH

Antworten:


20

Ich wäre an Rückmeldungen zu dem Absatz interessiert, der mit "Nachdenken ..." beginnt, da mich ein bestimmter Teil des Modells nachts auf Trab gehalten hat.

Das Bayes'sche Modell

Die überarbeitete Frage lässt mich denken, dass wir das Modell explizit entwickeln können, ohne Simulation zu verwenden. Durch die Simulation wurde aufgrund der inhärenten Zufälligkeit der Stichproben eine zusätzliche Variabilität eingeführt. Die Antwort der Sophologen ist jedoch großartig.

Annahmen : Die kleinste Anzahl Etiketten pro Umschlag beträgt 90 und die größte Anzahl 100.

Daher beträgt die kleinstmögliche Anzahl von Etiketten 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (gemäß OP-Daten), 9000 aufgrund unserer Untergrenze und der zusätzlichen Etiketten, die aus den beobachteten Daten stammen.

Bezeichne die Anzahl der Etiketten in einem Umschlag . Bezeichne die Anzahl der Labels über 90, dh , also . Die Binomialverteilung modelliert die Gesamtzahl der Erfolge (hier ist ein Erfolg das Vorhandensein eines Etiketts in einem Umschlag) in Versuchen, wenn die Versuche mit konstanter Erfolgswahrscheinlichkeit unabhängig sind, sodass die Werte annimmtWir nehmen , was 11 verschiedene mögliche Ergebnisse ergibt. Ich gehe davon aus, dass aufgrund der unregelmäßigen Blattgrößen einige Blätter nur Platz fürYiiXiX=Y90X{0,1,2,...,10}npX0,1,2,3,...,n.n=10Xzusätzliche Markierungen über 90, und dass dieser "zusätzliche Raum" für jede Markierung über 90 unabhängig mit der Wahrscheinlichkeit auftritt . AlsopXiBinomial(10,p).

(Nach der Überlegung ist die Annahme der Unabhängigkeit / des Binomialmodells wahrscheinlich eine seltsame Annahme, da dadurch die Zusammensetzung der Druckerbögen effektiv als unimodal festgelegt wird und die Daten nur den Ort des Modus ändern können, das Modell dies jedoch niemals zulässt.) eine multimodale Verteilung , z. B. unter einem alternativen Modell, ist es möglich , dass der Drucker nurhat Blätter der Größen 97, 98, 96, 100 und 95: dies erfüllt alle angegebenen Einschränkungen und die Daten schließen diese Möglichkeit nicht aus. Es ist möglicherweise sinnvoller, jedes Blattformat als eine eigene Kategorie zu betrachten und dann ein Dirichlet-Multinomial-Modell an die Daten anzupassen. Ich mache das hier nicht, weil die Daten so knapp sind, so dass die hinteren Wahrscheinlichkeiten für jede der 11 Kategorien sehr stark vom Prior beeinflusst werden. Andererseits schränken wir durch die Anpassung des einfacheren Modells auch die Art der Schlussfolgerungen ein, die wir ziehen können.)

Jeder Umschlag ist eine IId Realisierung . Die Summe der Binomialversuche mit der gleichen Erfolgswahrscheinlichkeit ist ebenfalls binomial, also(Dies ist ein Theorem. Verwenden Sie zur Verifizierung den MGF-Eindeutigkeitssatz.)iXpiXiBinomial(60,p).

Ich ziehe es vor, über diese Probleme im Bayes'schen Modus nachzudenken, da Sie direkte Wahrscheinlichkeitsaussagen über posteriore interessierende Mengen machen können. Ein typischer Stand der Technik für Binomialversuche mit unbekanntem ist die Beta-Verteilung , die sehr flexibel ist (variiert zwischen 0 und 1, kann in beide Richtungen symmetrisch oder asymmetrisch sein, gleichförmig sein oder eine von zwei Dirac-Massen haben, einen Antimode oder einen Mode. Es ist ein erstaunliches Werkzeug! In Ermangelung von Daten erscheint es vernünftig, eine einheitliche Wahrscheinlichkeit über anzunehmen . Das heißt, man könnte erwarten, dass auf einem Blatt 90 Etiketten 91, 92, ... und 100 Platz finden. Unser Prior ist alsopppBeta(1,1).Wenn Sie der Meinung sind, dass diese Betaversion nicht zumutbar ist, können Sie die einheitliche Betaversion durch eine andere ersetzen, und der Schwierigkeitsgrad steigt nicht einmal an.

Die posteriore Verteilung auf ist durch die Konjugationseigenschaften dieses Modells. Dies ist jedoch nur ein Zwischenschritt, da uns weniger wichtig ist als die Gesamtzahl der Etiketten. Zum Glück bedeuten die Eigenschaften der Konjugation auch, dass die posteriore prädiktive Verteilung der Blätter Beta-Binomial ist , mit Parametern der Beta-Posterior. Es gibt reamining „Versuche“, also Etiketten , für die ihre Präsenz in der Lieferung unsicher ist, so dass unser posterior Modell auf den verbleibenden Etiketten istppBeta(1+43,1+17)p940ZZBB(44,18,940).

Bildbeschreibung hier eingeben

Da wir eine Verteilung auf und ein Wertmodell pro Etikett haben (der Verkäufer hat einem Dollar pro Etikett zugestimmt), können wir auch eine Wahrscheinlichkeitsverteilung über den Wert des Loses ableiten. Man bezeichne den Gesamtdollarwert der Partie. Wir wissen, dass , weil nur die Bezeichnungen modelliert, über die wir unsicher sind. So ist die Verteilung über Wert ist gegeben durch .ZDD=9043+ZZD

Was ist der geeignete Weg, um die Preisgestaltung des Loses zu erwägen?

Wir können feststellen, dass die Quantile bei 0,025 und 0,975 (ein 95% -Intervall) 553 bzw. 769 betragen. Das 95% -Intervall für D ist also . Ihre Zahlung fällt in dieses Intervall. (Die Verteilung auf ist nicht genau symmetrisch, daher ist dies nicht das zentrale 95% -Intervall. Die Asymmetrie ist jedoch vernachlässigbar. Wie ich weiter unten erläutere, bin ich mir nicht sicher, ob ein zentrales 95% -Intervall überhaupt das richtige ist eine zu beachten!)[9596,9812]D

Ich kenne keine Quantilfunktion für die Beta-Binomialverteilung in R, daher habe ich meine eigene mit Rs Root-Finding geschrieben.

qbetabinom.ab <- function(p, size, shape1, shape2){
    tmpFn <- function(x) pbetabinom.ab(x, size=size, shape1=shape1, shape2=shape2)-p
    q <- uniroot(f=tmpFn, interval=c(0,size))
    return(q$root)
}

Eine andere Möglichkeit, darüber nachzudenken, besteht darin, über die Erwartungen nachzudenken. Wenn Sie diesen Vorgang mehrmals wiederholen, wie hoch sind dann die durchschnittlichen Kosten, die Sie bezahlen würden? Wir können die Erwartung von direkt berechnen . Das Beta-Binomialmodell hat die Erwartung , also fast genau das, was Sie bezahlt haben. Ihr erwarteter Verlust bei dem Geschäft betrug nur 6 Dollar! Alles in allem gut gemacht!DE(D)=E(9043+Z)=E(Z)+9043.E(Z)=nαα+β=667.0968E(D)=9710.097,

Ich bin mir jedoch nicht sicher, ob eine dieser Zahlen die relevanteste ist. Immerhin versucht dieser Anbieter, Sie zu betrügen! Wenn ich diesen Deal machen würde, würde ich aufhören, mir Sorgen über die Gewinnschwelle oder den fairen Preis des Loses zu machen und die Wahrscheinlichkeit herausfinden, dass ich zu viel bezahle! Der Verkäufer versucht eindeutig, mich zu betrügen, daher bin ich vollkommen in meinem Recht, meine Verluste zu minimieren und mich nicht um die Gewinnschwelle zu kümmern. In dieser Einstellung ist der höchste Preis, den ich anbieten würde, 9615 Dollar, da dies das 5% -Quantil des hinteren Teils von , dh es besteht eine 95% -ige Wahrscheinlichkeit, dass ich unterbezahleD . Der Verkäufer kann mir nicht beweisen, dass alle Labels vorhanden sind, daher werde ich meine Einsätze absichern.

(Die Tatsache, dass der Verkäufer den Deal akzeptiert hat, sagt uns natürlich, dass er einen nichtnegativen realen Verlust hat ... Ich habe keine Möglichkeit gefunden, diese Informationen zu verwenden, um genauer zu bestimmen, wie viel Sie betrogen wurden, außer zu beachten dass, weil er das Angebot angenommen hat, Sie bestenfalls die Gewinnschwelle überschritten haben.)

Vergleich zum Bootstrap

Wir haben nur 6 Beobachtungen, mit denen wir arbeiten können. Die Rechtfertigung für den Bootstrap ist asymptotisch. Betrachten wir also, wie die Ergebnisse in unserer kleinen Stichprobe aussehen. Dieses Diagramm zeigt die Dichte der Boostrap-Simulation. Bildbeschreibung hier eingeben

Das "holprige" Muster ist ein Artefakt der kleinen Stichprobengröße. Das Einbeziehen oder Ausschließen eines Punktes hat einen dramatischen Effekt auf den Mittelwert, wodurch dieses "büschelige" Erscheinungsbild entsteht. Der Bayes'sche Ansatz glättet diese Klumpen und ist meiner Meinung nach ein glaubwürdigeres Porträt dessen, was vor sich geht. Vertikale Linien sind die 5% Quantile.


es ist eine großartige Antwort. Sie haben neue Erkenntnisse gewonnen, indem Sie das Risiko bestraft haben. Danke
Neeraj

1
Ich war nur froh herauszufinden, dass Ihr erwarteter Verlust nur 6 $ betrug. :-) Nochmals vielen Dank für eine tolle Frage.
Setzen Sie Monica am

1
Die Binomialverteilung modelliert die Anzahl der Erfolge in Versuchen, wenn die Versuche mit konstanter Erfolgswahrscheinlichkeit unabhängig sind, sodass sie Werte vonWir nehmen , was 11 verschiedene mögliche Ergebnisse ergibt. Ich gehe davon aus, dass aufgrund der unregelmäßigen Blattgrößen einige Blätter nur Platz für zusätzliche Etiketten über 90 haben und dass dieser "zusätzliche Platz" für jedes Etikett mit der Wahrscheinlichkeit auftritt . np0,1,2,3,....,n.n=10Xp
Setzen Sie Monica am

1
Das Poisson-Modell kann Werte von annehmen . Daher weist es Etiketten pro Paket eine positive Wahrscheinlichkeit zu . Nun, es gibt eine geringe Wahrscheinlichkeit von Elementen unter irgendeinem vernünftigen Poisson-Modell für diese Daten, aber niemand hat das Poisson-Modell verwendet, weil es die Einschränkungen nicht beachtet . 101 , 102 , 103 , . . . , 10 6 10 6 0 X 100,1,2,3,...101,102,103,...,1061060X10
Setzen Sie Monica am


20

EDIT: Tragödie! Meine anfänglichen Annahmen waren falsch! (Oder zumindest im Zweifelsfall - vertrauen Sie dem, was der Verkäufer Ihnen sagt? Trotzdem, haben Sie auch einen Tipp an Morten.) Was meiner Meinung nach eine weitere gute Einführung in die Statistik ist, aber der Teilblattansatz wird jetzt unten hinzugefügt. ( da die Leute das Ganze Blatt zu mögen schienen, und vielleicht wird es noch jemand nützlich finden).

Vor allem ein großes Problem. Aber ich würde es gerne etwas komplizierter machen.

Lassen Sie mich es deshalb vorab etwas einfacher machen und sagen: Die Methode, die Sie gerade anwenden, ist absolut vernünftig . Es ist billig, es ist einfach, es macht Sinn. Wenn Sie sich also daran halten müssen, sollten Sie sich nicht schlecht fühlen. Stellen Sie einfach sicher, dass Sie Ihre Bundles zufällig auswählen. UND, wenn Sie einfach alles zuverlässig wiegen können (Hutspitze zu whuber und user777), dann sollten Sie das tun.

Der Grund, warum ich es etwas komplizierter machen möchte, ist, dass Sie es bereits getan haben - Sie haben uns nur nicht über die ganze Komplikation informiert, das heißt: Zählen braucht Zeit, und Zeit ist auch Geld . Aber wie viel ? Vielleicht ist es tatsächlich billiger, alles zu zählen!

Sie müssen also die Zeit, die Sie zum Zählen benötigen, mit der Menge an Geld, die Sie sparen, abwägen. (WENN Sie dieses Spiel natürlich nur einmal spielen. Wenn Sie das das NÄCHSTE Mal mit dem Verkäufer tun, haben sie möglicherweise einen neuen Trick erprobt. In der Spieltheorie ist dies der Unterschied zwischen Einzelschussspielen und Wiederholt Spiele. Aber vorerst wollen wir so tun, als würde der Verkäufer immer dasselbe tun.)

Noch etwas, bevor ich zur Schätzung komme. (Und es tut mir leid, dass ich so viel geschrieben habe und immer noch nicht auf die Antwort gekommen bin, aber dann ist das eine ziemlich gute Antwort auf Was würde ein Statistiker tun? bevor sie sich wohl fühlten, etwas darüber zu sagen.) Und das Ding ist eine Einsicht, die auf Folgendem basiert:

(BEARBEITEN: WENN SIE TATSÄCHLICH TÄUSCHEN ...) Ihr Verkäufer spart kein Geld, indem er Etiketten entfernt - er spart Geld, indem er keine Blätter druckt . Sie können Ihre Etiketten nicht an andere verkaufen (nehme ich an). Und vielleicht weiß ich es nicht und ich weiß nicht, ob Sie es tun. Sie können nicht ein halbes Blatt von Ihren Sachen und ein halbes Blatt von jemand anderem drucken. Mit anderen Worten, bevor Sie überhaupt angefangen Zählen haben, können Sie davon ausgehen , dass die Gesamtzahl der Etiketten entweder ist 9000, 9100, ... 9900, or 10,000. So gehe ich es vorerst an.

Die Ganzblattmethode

Wenn ein Problem wie dieses ein wenig knifflig ist (diskret und begrenzt), simulieren viele Statistiker, was passieren könnte. Folgendes habe ich simuliert:

# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
    bucket <- sample(which(stacks!=100),1)
    stacks[bucket] <- stacks[bucket] + 1
}

Dies gibt Ihnen, vorausgesetzt sie verwenden ganze Blätter und Ihre Annahmen sind korrekt, eine mögliche Verteilung Ihrer Etiketten (in der Programmiersprache R).

Dann habe ich das gemacht:

alpha = 0.05/2
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}

Dies findet unter Verwendung einer "Bootstrap" -Methode Konfidenzintervalle unter Verwendung von 4, 5, ... 20 Abtastwerten. Mit anderen Worten: Wenn Sie im Durchschnitt N Stichproben verwenden würden, wie groß wäre Ihr Konfidenzintervall? Ich benutze dies, um ein Intervall zu finden, das klein genug ist, um über die Anzahl der Blätter zu entscheiden, und das ist meine Antwort.

Mit "klein genug" meine ich, dass in meinem 95% -Konfidenzintervall nur eine ganze Zahl enthalten ist. Wenn mein Konfidenzintervall beispielsweise bei [93,1, 94,7] liegt, würde ich 94 als die richtige Anzahl von Blättern auswählen, da wir wissen es ist eine ganze Zahl.

Eine weitere Schwierigkeit - Ihr Vertrauen hängt von der Wahrheit ab . Wenn Sie über 90 Blatt verfügen und jeder Stapel über 90 Etiketten verfügt, konvergieren Sie sehr schnell. Gleiches gilt für 100 Blatt. Ich habe mir also 95 Blätter angesehen, bei denen die größte Unsicherheit besteht, und festgestellt, dass Sie für 95% ige Sicherheit durchschnittlich etwa 15 Muster benötigen. Nehmen wir also an, Sie möchten insgesamt 15 Proben nehmen, weil Sie nie wissen, was wirklich da ist.

Nachdem Sie wissen, wie viele Proben Sie benötigen, wissen Sie, dass Sie mit folgenden Einsparungen rechnen müssen:

100Nmissing15c

Dabei ist die Kosten für das Zählen eines Stapels. Wenn Sie davon ausgehen, dass jede Zahl zwischen 0 und 10 mit gleicher Wahrscheinlichkeit fehlt, liegen Ihre erwarteten Einsparungen bei c $. Aber und hier ist der Punkt, an dem Sie die Gleichung aufstellen müssen: Sie können sie auch optimieren, um Ihr Vertrauen in die Anzahl der von Ihnen benötigten Proben zu verlieren. Wenn Sie mit der Gewissheit einverstanden sind, dass Sie 5 Proben erhalten, können Sie auch berechnen, wie viel Sie dort verdienen. (Und Sie können mit diesem Code spielen, um das herauszufinden.)500 - 15 c50015

Aber Sie sollten auch den Typen dafür belasten, dass er Sie dazu gebracht hat, all diese Arbeit zu erledigen!

(EDIT: ADDED!) Der Partial Sheet Approach

Okay, nehmen wir also an, dass das, was der Hersteller sagt, wahr ist und nicht beabsichtigt ist - ein paar Etiketten gehen einfach in jedem Blatt verloren. Sie möchten immer noch wissen, über wie viele Labels insgesamt?

Dieses Problem ist anders, weil Sie keine schöne saubere Entscheidung mehr treffen können - das war ein Vorteil für die Annahme von Whole Sheet. Früher gab es nur 11 mögliche Antworten - jetzt gibt es 1100 Antworten. Wenn Sie ein Konfidenzintervall von 95% für genau die Anzahl der Etiketten erhalten, werden wahrscheinlich viel mehr Proben entnommen, als Sie möchten. Mal sehen, ob wir uns das anders überlegen können.

Da es wirklich darum geht, dass Sie eine Entscheidung treffen, fehlen uns noch einige Parameter - wie viel Geld sind Sie bereit, in einem einzigen Deal zu verlieren, und wie viel Geld kostet es, einen Stapel zu zählen. Aber lassen Sie mich festlegen, was Sie mit diesen Zahlen machen können.

Wenn Sie erneut simulieren (obwohl dies für user777 empfohlen wird, wenn Sie es nicht tun können!), Ist es informativ, die Größe der Intervalle zu überprüfen, wenn Sie eine andere Anzahl von Samples verwenden. Das geht so:

stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])

Diesmal wird davon ausgegangen, dass jeder Stapel eine einheitlich zufällige Anzahl von Etiketten zwischen 90 und 100 enthält, und Sie erhalten:

Grenzen der Konfidenzintervalle nach Anzahl der Proben

Wenn die Dinge wirklich so aussehen würden, als wären sie simuliert worden, wäre der wahre Mittelwert ungefähr 95 Samples pro Stapel, was niedriger ist als die Wahrheit - dies ist tatsächlich ein Argument für den Bayes'schen Ansatz. Aber es gibt Ihnen ein nützliches Gefühl dafür, wie viel sicherer Sie über Ihre Antwort werden, wenn Sie weiter probieren - und Sie können jetzt die Kosten für die Probennahme explizit mit dem Preis abwägen, zu dem Sie kommen.

Was ich mittlerweile weiß, wir sind alle sehr neugierig.


6
+1 Diese Analyse geht direkt und kreativ auf die Frage ein: Wie würde ein (guter) Statistiker das Problem sehen? Die Konzentration auf die Blattzahl ist eine wertvolle Erkenntnis.
Whuber

1
Der Kosten-Nutzen-Ansatz ist eine großartige Idee. Ich würde bereits sagen, dass die kollektiven Arbeitsstunden, die für dieses Problem aufgewendet wurden, die Einsparungen von 284 US-Dollar aus der von Neeraj verwendeten Stichprobe von n = 6 überschritten haben. :)
RobertF

1
Gute Antwort. Wenn der Drucker einen vollen Stapel aufnimmt, lässt er das zusätzliche Etikett einfach auf den Boden fallen, wie Sie es derzeit codiert haben, was möglicherweise vernünftig ist. Wenn Sie jedoch 9000,9100...10000am Ende die Gesamtzahl der Beschriftungen haben möchten, können Sie Ihre if-Logik durch ersetzen bucket <- sample(which(stacks!=100),1)und dann den Stapel immer inkrementieren.
Adam C

1
Ah, habe ich gerade selbst bemerkt! Danke für den Fang. Auf jeden Fall ein Fehler.
one_observation

1
Wie berechnen Sie Konfidenzintervalle? Verwenden Sie den Bootstrap?
RobertF

3

Dies ist eine ziemlich begrenzte Stichprobe. (Code-Schnipsel sind in R)

> sample <- c(97,98,96,100,95,97)

Für eine erste Schätzung der erwarteten Anzahl in der Gesamtbevölkerung und einen 95% igen Vertrauenswert für den Preis können wir mit dem Mittelwert und dem 5% igen Quantil beginnen

> 100*mean(sample)
[1] 9716.667
> 100*quantile(sample,0.05)
  5% 
9525 

Um weiter zu gehen, müssen wir ein theoretisches Modell erstellen und zusätzliche Annahmen treffen. Es gibt verschiedene Unsicherheitsquellen: (1) Unsicherheit für die Funktionsform eines Modells zur Paketfüllung, (2) Unsicherheit bei der Schätzung der Parameter für das Modell und (3) Abtastfehler.

pn=100p

> n <- 100
> (p<-1-mean(sample)/100)
[1] 0.02833333

n100np10

> (lambda <- n*p)
[1] 2.833333

λ=lambda

> var(sample)
[1] 2.966667

λr=100*lambda

> 100*100-100*lambda
[1] 9716.667
> 100*100-qpois(0.95,100*lambda)
[1] 9689

ppαβαβα=1β=0

α=1+583β=0+17

αβαβ

Angenommen, jedes Paket wird unabhängig gefüllt, können wir die gesamte Paketbox als 10000 unabhängige Ereignisse anstatt als 100 Ereignisse von 100 Unterereignissen anzeigen. Der Mittelwert beträgt daher 9717,138 mit der Standardabweichung 69,57153. Mit der Verteilungsfunktion können Sie die 95% -Konfidenzzahl auf etwa 9593 berechnen. Dabei habe ich das R-Paket VGAMfür seine *betabinom.abFunktionen verwendet.

Die Unsicherheit in dem geschätzten Parameter reduziert den 95% -Konfidenzpreis also um fast 100, und wir kommen unserer anfänglichen einfachen Annäherung ziemlich nahe.

Unabhängig vom Ansatz oder Modell können zusätzliche Daten verwendet werden, um das Modell zu validieren. Dies bedeutet, dass die zusätzlichen Daten unter dem theoretischen Modell angemessen sind oder ob Anpassungen oder ein neues Modell erforderlich sind. Der Modellierungsprozess ähnelt der wissenschaftlichen Methode.


2

Zur Not würde meine erste Neigung darin bestehen, ein Konfidenzintervall von 95% für Ihren Stichprobenmittelwert über eine abgestumpfte Normalverteilung zwischen der unteren und oberen Grenze von 90 und 100 Etiketten zu berechnen .

Mit dem Paket R truncnormkönnen Sie Konfidenzintervalle für eine verkürzte Normalverteilung bei einem bestimmten Stichprobenmittelwert, einer bestimmten Stichprobenstandardabweichung, einer bestimmten Unter- und Obergrenze ermitteln.

Da Sie eine Stichprobe von n = 5 aus einer relativ kleinen Grundgesamtheit (N = 100) ziehen, können Sie die Standardabweichung der Stichprobe mit einem endlichen Grundgesamtheitsfaktor multiplizieren = [(Nn) / (N-1)] ^. 5 = 0,98.


5
Ich frage mich, ob sich die zusätzlichen Komplikationen der Annahme eines verkürzten Normalen lohnen - oder sogar gelten -, da die Zählungen diskret sind und nur eine geringe Anzahl möglicher Werte annehmen können.
whuber

@whuber - Richtig, aber das Konfidenzintervall liegt über der Verteilung des Stichprobenmittelwerts, bei dem es sich um eine kontinuierliche Größe handelt. Anstatt ein 95% -Konfidenzintervall zu verwenden, ist es möglicherweise besser, den Bereich unter der Verteilung zwischen diskreten Mengen zu finden, z. B. 93 und 99.
RobertF

Sie benötigen jedoch kein verkürztes Normal, um mit dem Stichprobenmittelwert zu arbeiten. Es sieht nach einer unnötigen Komplikation aus.
whuber

1
Die CLT behauptet nicht, dass irgendetwas einer abgeschnittenen Normalverteilung folgt. Bootstrapping ist wahrscheinlich problematisch, da es für seine Gültigkeit auf asymptotischen Ergebnissen beruht.
Whuber

1
Da die Standardabweichung des Mittelwerts schnell viel kleiner als der Bereich wird, ist die Kürzung praktisch irrelevant. Wir sprechen von einer praktischen Lösung, die nicht durch unnötige und möglicherweise störende Details überkompliziert wird.
Whuber

2

Ein schneller und einfacher Ansatz besteht darin, alle möglichen Resamples der Größe 6 zu berücksichtigen. Es gibt nur 15.625 Permutationen. Betrachtet man diese und nimmt den Durchschnitt für jeden Fall, sortiert dann die Mittelwerte und extrahiert das 5% -Quantil, so erhält man einen Wert von 96.

Der geschätzte Betrag, den Sie bereit sein sollten zu zahlen, liegt bei 9600. Dies steht in guter Übereinstimmung mit einigen der ausgefeilteren Ansätze.

Eine Verbesserung wäre hier, eine große Anzahl von Proben der Größe 6 zu simulieren und auf dieselbe Weise das 5. Perzentil der Probenmittel zu finden. Unter Verwendung von etwas mehr als einer Million Resamples fand ich das 5. Perzentil als 96,1667, sodass die Zahlung auf den nächsten Dollar 9617 Dollar betragen würde, was nur eine Differenz von 2 Dollar zum Ergebnis von 9615 von user777 ist.


1
Können Sie erklären, warum dies eine angemessene Antwort auf die Frage ist, wie viel bezahlt werden soll? Warum nicht zum Beispiel den Mittelwert der Stichprobe verwenden?
Whuber

Sie würden den Beispielmittelwert verwenden, wenn Sie eine Zahlung wünschen, die an der Anzahl der Etiketten ausgerichtet ist, die Ihrer Meinung nach vorhanden sind. Der Fragesteller bat jedoch um 95% ige Gewissheit, dass er nicht für mehr Etiketten bezahlt, als angefertigt wurden. So erhalten wir eine Vorstellung von der Verteilung des Stichprobenmittelwerts für Stichproben der Größe 6 und verwenden das 5. Perzentil.
Soakley

1
Es wäre gut, diese Erklärung in Ihre Antwort aufzunehmen. Sie können auch erläutern, warum dieses Resampling-Verfahren Ihrer Meinung nach tatsächlich zu einem gültigen oder zuverlässigen Vertrauenslimit führt. Obwohl dies bei vielen großen Datensätzen möglich ist, sollte man sich überlegen, ob es bei einem so kleinen Datensatz auf die gleiche Weise verwendet werden kann.
Whuber

0

Es scheint, als hätten Sie bereits festgestellt, dass der Fehler absichtlich begangen wurde, aber ein Statistiker würde nicht zu solchen Schlussfolgerungen springen (obwohl die Beweise dies zu stützen scheinen).

Man könnte dies als Hypothesentest aufstellen:

H0: Der Händler ist ehrlich, aber ziemlich schlampig

H1: Der Händler ist betrügerisch und der Fehlbetrag ist beabsichtigt.

Nehmen wir H0 an, dann ist jede Abweichung ein zufälliges Ereignis mit einem Mittelwert von 0 und der gleichen Chance, positiv oder negativ zu sein. Nehmen wir weiter an, dass die Abweichungen normalverteilt sind. Die Standardabweichung für die Normalverteilung basierend auf den Abweichungen in den 6 Datenpunkten beträgt sd = 1,722

Wenn sich der Statistiker nicht sehr gut an seine Theorie erinnerte, aber R in der Nähe hatte (kein unwahrscheinliches Szenario), könnte er / sie den folgenden Code schreiben, um die Wahrscheinlichkeit zu prüfen, keine positiven Abweichungen zu erhalten (keine Pakete von mehr als 100), wenn H0 ist wahr.

numpackages=c(97,98,96,100,95,97)
error<-100-numpackages
errorStdev<-sd(error)
numSimulations<-1000000
max100orLes<-0
for(p in 1:numSimulations)
{
  simulatedError<-rnorm(6,mean=0,sd=errorStdev)

  packageDeviations<-round(simulatedError)

  maxValue<-max(packageDeviations)
  if(maxValue<=0)
  {
    max100orLes<-max100orLes+1
  }   
}
probH0<-100*max100orLes/numSimulations
cat("The probability the H0 is correct is:",probH0,"%")

Das Ergebnis der Simulation ist:

The probability the H0 is correct is: 5.3471 %

Die Wahrscheinlichkeit, dass der Dealer ehrlich ist, beträgt nur 5,35%, und es ist daher sehr wahrscheinlich, dass Sie Opfer eines Betrugs wurden.

Da Sie sagen, dass dies keine Hausaufgabe, sondern eine reale Situation für Ihr Unternehmen ist, ist dies keine Übung zur Berechnung der korrekten erwarteten Nummernschilder mehr, sondern ein kniffliger Fall, wie man mit einem unehrlichen Lieferanten umgeht.

Was Sie von hier aus tun, lässt sich nicht allein mit Statistiken beantworten. Es hängt sehr stark von Ihrer Hebelwirkung und Ihrer Beziehung zum Händler ab.

Viel Glück !

Morten Bunes Gustavsen


1
17/61.72/60.7017/6/0.704.01000.00003

Ein Fehler ist immer eine Option, daher könnte ich einen Fehler gemacht haben. Meine Berechnungen sind jedoch in dem von mir angegebenen R-Code dokumentiert. Es sollte also keinen Grund geben, sich zu fragen, wie ich zu meinem Ergebnis gekommen bin. Ja, die H0-Hypothese in meinem Fall ist, dass der Dealer ehrlich ist und die Abweichungen dann zufällige Schwankungen mit einem Mittelwert von 100 sind. Der Stdev in meiner Berechnung ist nur der Stdev der Serie (-3, -2, -4, 0, -5, -3), was die Abweichung von 100 in jeder Packung ist.
Morten Bunes Gustavsen

Ich benutze einfach diese normale Abweichung und ziehe 6 Proben und überprüfe, ob keine größer als 0 ist. Ich führe die Simulation 1000.000 Mal durch und führe aus, wie oft ich Pech habe, keine Probe über 0 zu bekommen Es stellt sich heraus, 5,35% der Fälle zu sein. Der Grund, warum ich diesen Blickwinkel gewählt habe, war, dass in der Frage ausdrücklich angegeben wurde, dass es sich um eine reale Situation handelt (dh nicht um eine akademische Übung), und dass er gerne wissen möchte, was ein Statistiker in diesem Fall tun würde.
Morten Bunes Gustavsen

3
Die Frage stellte auch fest, dass es keine Chance gab, mehr als 100 Etiketten in einer Packung zu zählen. Unabhängig davon haben Sie eine umfangreiche Simulation von Zahlen durchgeführt, die den Daten ähneln. Was jedoch, wenn überhaupt, mit der Frage zu tun hat ("Wie viel müssen wir bezahlen?"), Ist unklar.
Whuber

-2

Wie wäre es mit einem multinomialen Modell?

Die Wahrscheinlichkeit jedes Ergebnisses wird mit 1/6, 1/6, .... (basierend auf den 6 Beobachtungen) geschätzt, und so ist E (x) = 97,16 und Var (x) = Summe (95 ^ 2 * 1/6 +) ...) - E (x) ^ 2 = 2.47, so dass der 95% CI [94, 100] wäre


3
Dies scheint überhaupt nicht multinomial zu sein: Ihr CI scheint ein Intervall der Normaltheorie zu sein, das die unkorrigierte Formel für die Varianz verwendet. Wie beantwortet es außerdem die Frage, wie viel zu zahlen ist?
whuber

Das Multinom gilt für das Ergebnis, dh 95, 96, 97 ... 100, und ja, das CI ist die Normaltheorie, da xe (x) / sd ~ N. Wie viel zu zahlen wäre, entspricht der Erwartung, also 97,16 * 100
Xing

4
Haben Sie bemerkt, dass Sie die multinomiale Annahme überhaupt nicht verwenden? Ihr CI ist zu kurz, wie WS Gosset 1908 feststellte. Aber wenn Sie Ihre Empfehlung nur auf den Mittelwert der Stichprobe stützen wollen, warum sollten Sie dann ein CI berechnen?
whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.