Warum nicht vorhersagen, wie viele Produkte ausfallen könnten, anstatt eine Wahrscheinlichkeit zu berechnen ?
Modellierung der Beobachtungen
Es gibt Produkte auf dem Gebiet und ein weiteres m = 10000, das in Betracht gezogen wird. Angenommen, ihre Fehler sind alle unabhängig und konstant mit der Wahrscheinlichkeit p .n=100000m=10000p
Wir können diese Situation mit Hilfe eines Binomial Experiment Modell: aus einer Box von Tickets mit einem unbekannten Anteil von „Versagen“ Tickets und 1 - p „Erfolg“ Tickets, zeichnen m + n = 110000 Tickets (mit Ersatz, so dass die Ausfallwahrscheinlichkeit bleibt gleich). Zählen Sie die Fehler unter den ersten n Tickets - sei dies X - und zählen Sie die Fehler unter den verbleibenden m Tickets, wobei Sie das Y nennen .p1−pm+n=110000nXmY
Die Frage formulieren
Im Prinzip können und 0 ≤ Y ≤ m alles sein. Was uns interessiert, ist die Chance, dass Y = u gegeben ist, dass X + Y = u (mit u einer beliebigen Zahl in { 0 , 1 , … , m } ). Da die Fehler unter allen n + m Tickets überall auftreten können, wobei jede mögliche Konfiguration die gleiche Chance hat, wird dies durch Teilen der Anzahl von u ermittelt0≤X≤n0≤Y≤mY=u X+Y=uu{0,1,…,m}n+mu-Untergruppen von Dingen nach der Anzahl von u -Untergruppen von allen n + m Dingen:mun+m
p(u;n,m)=Pr(Y=u|X+Y=u)=(mu)(n+mu)=m(m−1)⋯(m−u+1)(n+m)(n+m−1)⋯(n+m−u+1).
Vergleichbare Formeln können für die Berechnung verwendet werden, wenn X=1,2,….
Eine obere - Vorhersagegrenze1−α (UPL) für die Anzahl von Fehlern in den letzten Tickets, t α ( X ; n , m ) wird von der kleinsten gegeben u ( in Abhängigkeit von X ) , für die p ( u ; n , m ) ≤ α .mtα(X;n,m)uXp(u;n,m)≤α
Interpretation
Die UPL sollte im Hinblick auf das Risiko der Verwendung von interpretiert werden , wie es bewertet wird, bevor entweder X oder Y beobachtet werden. Mit anderen Worten: Angenommen, es ist ein Jahr her und Sie werden gebeten, ein Verfahren zur Vorhersage der Anzahl der Fehler in den nächsten m Produkten zu empfehlen , sobald die ersten n beobachtet wurden. Ihr Kunde fragttαXYmn
Wie groß ist die Wahrscheinlichkeit, dass Ihr Eingriff unterbewertet ? Ich meine nicht in der Zukunft, nachdem Sie mehr Daten haben; Ich meine jetzt, weil ich jetzt Entscheidungen treffen muss und die einzigen Chancen, die mir zur Verfügung stehen, die sind, die in diesem Moment berechnet werden können. "Y
Ihre Antwort kann sein,
Im Moment ist die Chance nicht größer als , aber wenn Sie eine kleinere Vorhersage verwenden möchten, wird die Chance α überschreiten .αα
Ergebnisse
Für , m = 10 4 und X = 0 können wir das berechnenn=105m=104X=0
p(0,n,m)=1; p(1,n,m)=111≈0.091; p(2,n,m)=909109999≈0.0083;…
Daher auf beobachtet haben X=0 ,
Bis zu Konfidenz (das heißt, wenn 9,1 % ≤ α ), vorherzusagen , ist es höchstens t α ( 0 ; n , m ) = 1 Fehler in den nächsten 10 , 000 Produkten.1−α=90.9%9.1%≤αtα(0;n,m)=110,000
Bis zu Konfidenz (das heißt, wenn 0,8 % ≤ α < 9,1 % ) vorherzusagen , gibt es höchstens t α ( 0 ; n , m ) = 2 Fehler in den nächsten 10 , 000 Produkten.99.2%0.8%≤α<9.1%tα(0;n,m)=210,000
Usw.
Bemerkungen
Wann und warum sollte dieser Ansatz angewendet werden? Angenommen, Ihr Unternehmen stellt viele verschiedene Produkte her. Nach der Beobachtung der Leistung von von jedem im Feld, mag es Garantien zu produzieren, wie "komplette kostenlose Ersetzung von Fehlern innerhalb eines Jahres." Durch Vorhersagegrenzen für die Anzahl der Ausfälle können Sie die Gesamtkosten für die Absicherung dieser Garantien steuern. Da Sie viele Produkte herstellen und erwarten, dass Fehler auf zufällige Umstände zurückzuführen sind, auf die Sie keinen Einfluss haben, ist die Erfahrung jedes Produkts unabhängig. Es ist sinnvoll, Ihr Risiko langfristig zu kontrollierenn. Hin und wieder müssen Sie möglicherweise mehr Ansprüche als erwartet bezahlen, aber die meiste Zeit zahlen Sie weniger. Wenn das Zahlen von mehr als angekündigt ruinös sein könnte, setzen Sie auf extrem klein (und Sie würden wahrscheinlich auch ein ausgefeilteres Fehlermodell verwenden!). Ansonsten, wenn die Kosten gering sind, können Sie mit geringem Vertrauen leben (hohes α ). Diese Berechnungen zeigen, wie man Vertrauen und Risiken in Einklang bringt.αα
Beachten Sie, dass wir nicht die vollständige Prozedur berechnen müssen . Wir warten, bis X beobachtet wird, und führen dann einfach die oben gezeigten Berechnungen für dieses bestimmte X (hier X = 0 ) durch. Grundsätzlich hätten wir aber zu Beginn die Berechnungen für alle möglichen Werte von X durchführen können .tXXX=0X
Ein Bayes'scher Ansatz (beschrieben in anderen Antworten) ist attraktiv und funktioniert gut, vorausgesetzt, die Ergebnisse hängen nicht stark vom vorherigen ab. Wenn die Fehlerrate so niedrig ist, dass nur sehr wenige (oder keine) Fehler beobachtet werden, sind die Ergebnisse leider von der Wahl des Prior abhängig.