In meiner Antwort stelle ich viele Links zu Hintergrundmaterial bereit, um hier Platz zu sparen. Ich werde meine Antwort schreiben und die Informationen in den angegebenen Links verwenden.
Ich denke, ein Bayes'scher Ansatz passt natürlich zu diesem Problem, zumal Sie nur sich selbst überzeugen wollen. Es ist etwas kompliziert, Konfidenzintervalle zu verwenden, um die Frage zu beantworten, die Ihnen wirklich am Herzen liegt, wie plausibel es ist, dass und die Stichprobe aus dem Verteilung? Mit dem Bayes'schen Ansatz können Sie diese Frage direkt beantworten. Q 7 < Q 8 z iQ7<Q6Q7<Q8zi
Wahrscheinlichkeitsfunktion
Sei die beobachtete Häufigkeit des ganzzahligen Ergebnisses in Ihrer Stichprobe und sei die Stichprobengröße. Die Wahrscheinlichkeitsfunktion ist proportional zur Multinomialverteilung . Es hat die Form k N.fkkN
L(z0,...z8;f0,...f8)=∏8i=0ziNfi .
Vorherige Verteilung
Die Dirichlet-Verteilung ist die natürliche Wahl für die vorherige Verteilung, da sie das konjugierte Prior für die multinomiale Wahrscheinlichkeit ist. Es hat die Form
p(z0,...z8;α0,...,α8)∝∏8i=0ziαi−1
Dieser Prior hat neun Hyperparameter (die Werte), und es ist ein bisschen , mit ihnen umzugehen. In diesem Kontext mit „großen Stichproben“ hat jede vernünftige Auswahl von Hyperparameterwerten einen vernachlässigbaren Einfluss auf das Ergebnis, aber ich denke, es lohnt sich, ein wenig Mühe in die Auswahl vernünftiger Werte zu investieren.αi
Hier ist, wie ich empfehle, die Hyperparameter einzustellen. Beachten Sie zunächst, dass unter dieser Verteilung . Beachten Sie als nächstes, dass die einfachste maximale Entropieverteilung über die Naturwerte die geometrische Verteilung ist . Also setzenE(zi)=αi∑8i=0αi
αi+1=rαi=riα0,0<r<1,
α0=A(1−r1−r9).
Dann ist , also die Verteilung des Werte werden auf eine (abgeschnittene) geometrische Verteilung zentriert. Außerdem ist , sodass der Wert von die Streuung um diese Erwartung steuert, aber keinen Einfluss auf die Erwartung hat selbst.ziVar(zi)∝1E(zi)=ri(1−r1−r9)zi A.Var(zi)∝1(A+1)A
Diese Spezifikation reduziert die Anzahl der Hyperparameter aus den neun Werte nur und . Ich werde die Diskussion über bestimmte Werte von und vorerst verschieben . r A r A.αirArA
Hintere Wahrscheinlichkeit des interessierenden Satzes
Die hintere Verteilung der -Werte ist die folgende Dirichlet-Verteilung:zi
p(z0,...z8|f0,...,f8)∝∏8i=0ziαi+Nfi−1.
Sei . Die hintere Wahrscheinlichkeit, an der Sie interessiert sind, istY={z0,...z8|Q7<Q6 and Q7<Q8}
Pr(Q7<Q6 and Q7<Q8|f0,...,f8)∝∫Y∏8i=0ziαi+Nfi−1dzi.
Dieses Integral ist unlösbar, aber Sie können die interessierende Wahrscheinlichkeit numerisch mit dem folgenden Monte-Carlo-Algorithmus berechnen.
Für von bis ,1 J.j1J
Probieren Sie eine Reihe von Werten aus ihrer posterioren Verteilung aus.zi
Verwenden Sie die abgetasteten Werte, um zu berechnen, wobei die Indikatorfunktion ist.yj=I(Q7<Q6)I(Q7<Q8)I(⋅)
Dann .Pr(Q7<Q6 and Q7<Q8|f0,...,f8)≈∑Jj=0yjJ
Die Genauigkeit der Monte-Carlo-Näherung lautet wie folgt : : Mit erhalten Sie mindestens zwei von 20 Dezimalstellen Genauigkeit, mit erhalten Sie mindestens drei Dezimalstellen von Genauigkeit 19 mal von 20 usw.J−−√J=104J=106
Und wenn Ihre hintere Wahrscheinlichkeit von Interesse nicht nahe bei 0 oder 1 liegt, probieren Sie einfach weitere Daten aus, spülen Sie sie aus und wiederholen Sie sie.
Vorherige Hyperparameter, Teil zwei
Der Exponent von im Ausdruck für die hintere Dichte istzi
αi+Nfi−1=Ari(1−r1−r9)+Nfi−1=AE(zi)+Nfi−1
Es ist ersichtlich, dass der Hyperparameter in der vorherigen Verteilung dieselbe Rolle spielt wie in der Wahrscheinlichkeit - es ist eine Art "vorherige Stichprobengröße". Um sicherzustellen, dass der Prior einen vernachlässigbaren Einfluss auf die Schlussfolgerung hat, wählen Sie einfach einen Wert von so dass ; Zum Beispiel ist .ANAA≪NA=1
Um zu setzen , beachten Sie, dass Sie die vorherige Wahrscheinlichkeit des Satzes mit demselben oben beschriebenen Monte-Carlo-Algorithmus berechnen können, wobei jedoch die vorherige Verteilung anstelle der posterioren Verteilung in Schritt 1 des Satzes Schleife. Versuchen Sie, einen Wert von zu finden , der eine vorherige Wahrscheinlichkeit von 0,5 ergibt (oder weniger, wenn Sie der Meinung sind, dass dies vernünftiger ist).rQ7<Q6 and Q7<Q8r