θ
y1, . . . , yny= ( y1, . . . , yn)T.
y1, . . . , yn| θ∼N.( θ , σ2)
Oder wie typischer von Bayesian geschrieben,
y1, . . . , yn| θ∼N.( θ , τ)
τ= 1 / σ2τ
yich
f( yich| θ,τ) = (√τ2 π) × e x p ( - τ( yich- θ )2/ 2 )
θ^= y¯
θ
θ ∼ N.( a , 1 / b )
Die posteriore Verteilung, die wir aus diesem Normal-Normal-Datenmodell (nach viel Algebra) erhalten, ist eine weitere Normalverteilung.
θ|y∼N(bb+nτa+nτb+nτy¯,1b+nτ)
b+nτay¯bb+nτa+nτb+nτy¯
θ|yθθ
Sie können dies jetzt anhand eines beliebigen Lehrbuchbeispiels für normale Daten veranschaulichen. Ich werde den Datensatz airquality
in R verwenden. Betrachten Sie das Problem der Schätzung der durchschnittlichen Windgeschwindigkeit (MPH).
> ## New York Air Quality Measurements
>
> help("airquality")
>
> ## Estimating average wind speeds
>
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>
> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
>
>
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
>
> a = 12
> b = 2
>
> ## Your posterior would be N((1/))
>
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
>
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
>
> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5% 97.5%
9.958984 10.047404
In dieser Analyse kann der Forscher (Sie) sagen, dass bei geschätzten Daten + vorherigen Informationen Ihre Schätzung des durchschnittlichen Windes unter Verwendung des 50. Perzentils 10.00324 betragen sollte, mehr als nur unter Verwendung des Durchschnitts aus den Daten. Sie erhalten auch eine vollständige Verteilung, aus der Sie mit den Quantilen 2,5 und 97,5 ein zu 95% glaubwürdiges Intervall extrahieren können.
Im Folgenden füge ich zwei Referenzen hinzu. Ich empfehle dringend, Casellas Kurzarbeit zu lesen. Es zielt speziell auf empirische Bayes-Methoden ab, erklärt jedoch die allgemeine Bayes'sche Methodik für normale Modelle.
Verweise:
Casella, G. (1985). Eine Einführung in die empirische Bayes-Datenanalyse. The American Statistician, 39 (2), 83-87.
Gelman, A. (2004). Bayesianische Datenanalyse (2. Aufl., Texte in der Statistikwissenschaft). Boca Raton, Fla.: Chapman & Hall / CRC.