Wir untersuchen statistische Tests nach Bayes und stoßen auf ein merkwürdiges (zumindest für mich) Phänomen.
Betrachten Sie den folgenden Fall: Wir sind daran interessiert zu messen, welche Population A oder B eine höhere Conversion-Rate aufweist. Für eine Plausibilitätsprüfung setzen wir , dh die Konversionswahrscheinlichkeit ist in beiden Gruppen gleich. Wir erzeugen künstliche Daten mit einem Binomialmodell, zB
Wir versuchen dann, das Verwendung eines Bayes'schen Beta-Binomial-Modells zu schätzen , sodass wir Posterioren für jede Conversion-Rate erhalten, z. B.
Unsere Teststatistik wird durch Berechnung von S = P ( P A > P B berechnet über Monte Carlo.
Was mich überraschte, war, dass wenn , dann . Meine Gedanken waren, dass es um 0,5 zentriert sein und sogar auf 0,5 konvergieren würde, wenn die Stichprobengröße wächst.
Meine Frage ist, warum ist wenn ?
Hier ist ein Python-Code zur Veranschaulichung:
%pylab
from scipy.stats import beta
import numpy as np
import pylab as P
a = b = 0.5
N = 10000
samples = [] #collects the values of S
for i in range(5000):
assert a==b
A = np.random.binomial(N, a); B = np.random.binomial(N, b)
S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean()
samples.append(S)
P.hist(samples)
P.show()
R
Ich entschieden nicht-einheitliche Histogramme für kleine bekommen .