Update : Nach ein paar Jahren habe ich eine präzisere Behandlung des im Wesentlichen gleichen Materials als Antwort auf eine ähnliche Frage verfasst.
So erstellen Sie eine Vertrauensregion
Beginnen wir mit einer allgemeinen Methode zum Aufbau von Vertrauensbereichen. Sie kann auf einen einzelnen Parameter angewendet werden, um ein Konfidenzintervall oder eine Reihe von Intervallen zu erhalten. und es kann auf zwei oder mehr Parameter angewendet werden, um Bereiche mit höherem Maßvertrauen zu erhalten.
Wir behaupten, dass die beobachteten Statistiken D aus einer Verteilung mit Parametern θ , nämlich der Stichprobenverteilung s(d|θ) über mögliche Statistiken d , und suchen einen Vertrauensbereich für θ in der Menge möglicher Werte Θ . Definieren eines HDR (Highest Density Region): Der h HDR eines PDF ist die kleinste Teilmenge seiner Domäne, die die Wahrscheinlichkeit h unterstützt . Bezeichne das h HDR von s(d|ψ) als Hψ für jedes ψ∈Θ . Dann wird derh Vertrauensbereich fürθ , Daten gegebenD ist,der SatzCD={ϕ:D∈Hϕ} . Ein typischer Wert vonh wäre 0,95.
Eine häufige Interpretation
Aus der vorstehenden Definition eines Vertrauensbereich folgt
d∈Hψ⟷ψ∈Cd
mit Cd={ϕ:d∈Hϕ} . Nun stellen Sie eine große Menge von ( imaginären ) Beobachtungen {Di} , genommen unter ähnlichen Umständen zu D . dh sie sind Abtastwerte von s(d|θ) . Da Hθ Abstützungen Wahrscheinlichkeitsmasse h der PDF s(d|θ) ,P(Di∈Hθ)=h für allei . Daher ist der Bruchteil von{Di} für denDi∈Hθ ist,h . Und so ist unter Verwendung der obigen Äquivalenz der Bruchteil von{Di} für denθ∈CDi ist, ebenfallsh .
Dies ist es also, was die häufigste Behauptung für den h Vertrauensbereich für θ beträgt:
Nehmen Sie eine große Anzahl von imaginären Beobachtungen {Di} aus der Stichprobenverteilung s(d|θ) , die zu der beobachteten Statistik D . Dann liegt θ innerhalb eines Bruchteils h der analogen, aber imaginären Vertrauensbereiche {CDi} .
Der Konfidenzbereich CD erhebt daher keinen Anspruch auf die Wahrscheinlichkeit, dass θ irgendwo liegt! Der Grund ist einfach, dass es in der Formulierung nichts gibt, das es uns erlaubt, von einer Wahrscheinlichkeitsverteilung über θ zu sprechen . Die Interpretation ist nur aufwendiger Überbau, der die Basis nicht verbessert. Die Basis ist nur s(d|θ) und D , wobei θ thgr; nicht als verteilte Größe erscheint, und es gibt keine Informationen, mit denen wir das ansprechen können. Grundsätzlich gibt es zwei Möglichkeiten, eine Verteilung über θ :
- Ordnen Sie eine Verteilung direkt aus den vorliegenden Informationen zu: p(θ|I) .
- Beziehen θ zu einer anderen verteilten Menge: p(θ|I)=∫p(θx|I)dx=∫p(θ|xI)p(x|I)dx .
In beiden Fällen muss θ irgendwo links stehen. Frequentisten können keine der beiden Methoden anwenden, da sie beide einen ketzerischen Prior benötigen.
Bayesianische Sicht
Das Beste, was ein Bayesianer aus dem h Konfidenzbereich CD ohne Einschränkung machen kann , ist einfach die direkte Interpretation: Es ist die Menge von ϕ für die D in den h HDR Hϕ der Stichprobenverteilung s(d|ϕ) . Es sagt uns nicht unbedingt viel über θ , und hier ist der Grund dafür.
The probability that θ∈CD, given D and the background information I, is:
P(θ∈CD|DI)=∫CDp(θ|DI)dθ=∫CDp(D|θI)p(θ|I)p(D|I)dθ
Notice that, unlike the frequentist interpretation, we have immediately demanded a distribution over θ. The background information I tells us, as before, that the sampling distribution is s(d|θ):
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)p(D|I)dθ=∫CDs(D|θ)p(θ|I)dθp(D|I)=∫CDs(D|θ)p(θ|I)dθ∫s(D|θ)p(θ|I)dθ
Now this expression does not in general evaluate to h, which is to say, the h confidence region CD does not always contain θ with probability h. In fact it can be starkly different from h. There are, however, many common situations in which it does evaluate to h, which is why confidence regions are often consistent with our probabilistic intuitions.
For example, suppose that the prior joint PDF of d and θ is symmetric in that pd,θ(d,θ|I)=pd,θ(θ,d|I). (Clearly this involves an assumption that the PDF ranges over the same domain in d and θ.) Then, if the prior is p(θ|I)=f(θ), we have s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D). Hence
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(θ|D)dθ∫s(θ|D)dθ=∫CDs(θ|D)dθ
From the definition of an HDR we know that for any ψ∈Θ
∫Hψs(d|ψ)ddand therefore that∫HDs(d|D)ddor equivalently∫HDs(θ|D)dθ=h=h=h
Therefore, given that s(d|θ)f(θ)=s(θ|d)f(d), CD=HD implies P(θ∈CD|DI)=h. The antecedent satisfies
CD=HD⟷∀ψ[ψ∈CD↔ψ∈HD]
Applying the equivalence near the top:
CD=HD⟷∀ψ[D∈Hψ↔ψ∈HD]
Thus, the confidence region CD contains θ with probability h if for all possible values ψ of θ, the h-HDR of s(d|ψ) contains D if and only if the h-HDR of s(d|D) contains ψ.
Now the symmetric relation D∈Hψ↔ψ∈HD is satisfied for all ψ when s(ψ+δ|ψ)=s(D−δ|D) for all δ that span the support of s(d|D) and s(d|ψ). We can therefore form the following argument:
- s(d|θ)f(θ)=s(θ|d)f(d) (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)] (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]⟶∀ψ[D∈Hψ↔ψ∈HD]
- ∴∀ψ[D∈Hψ↔ψ∈HD]
- ∀ψ[D∈Hψ↔ψ∈HD]⟶CD=HD
- ∴CD=HD
- [s(d|θ)f(θ)=s(θ|d)f(d)∧CD=HD]⟶P(θ∈CD|DI)=h
- ∴P(θ∈CD|DI)=h
Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ), given a sample mean x¯ from n measurements. We have θ=μ and d=x¯, so that the sampling distribution is
s(d|θ)=n−−√σ2π−−√e−n2σ2(d−θ)2
Suppose also that we know nothing about θ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((d−θ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δ−ψ)2)=g(δ2)ands(D−δ|D)=g((D−δ−D)2)=g(δ2)so that∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θ lies in the confidence interval CD is h!
We therefore have an amusing irony:
- The frequentist who assigns the h confidence interval cannot say that P(θ∈CD)=h, no matter how innocently uniform θ looks before incorporating the data.
- The Bayesian who would not assign an h confidence interval in that way knows anyhow that P(θ∈CD|DI)=h.
Final Remarks
We have identified conditions (i.e. the two premises) under which the h confidence region does indeed yield probability h that θ∈CD. A frequentist will baulk at the first premise, because it involves a prior on θ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θ∈CD|DI) equals h. Equally though, there are many circumstances in which P(θ∈CD|DI)≠h, especially when the prior information is significant.
We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics D. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}, rather than x¯. Oftentimes, collapsing the raw data into summary statistics D destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θ.