Ein technisches Lemma
Ich bin mir nicht sicher, wie intuitiv dies ist, aber das wichtigste technische Ergebnis, das Ihrer Aussage des Halmos-Savage-Theorems zugrunde liegt, ist Folgendes:
Lemma.
Sei μμ ein σ-σ endliches Maß für ( S , A )(S,A) . Angenommen, ℵℵ ist eine Sammlung von Maßeinheiten für ( S , A ),(S,A) so dass für jedes ν ∈ ℵν∈ℵ , ν ≪ μ giltν≪μ . Dann existiert eine Folge von nichtnegativen Zahlen { c i } ∞ i = 1{ci}∞i=1 und eine Folge von Elementen von ℵℵ , { ν i } ∞ i = 1{νi}∞i=1so dass & Sgr; ∞ i = 1 c i = 1∑∞i=1ci=1 und ν « & Sgr; ∞ i = 1 c i ν iν≪∑∞i=1ciνi für jedes ν & egr ; ℵν∈ℵ .
Dies ist wörtlich aus Satz A.78 in Schervishs Statistiktheorie (1995) entnommen . Darin schreibt er es Lehmanns Testing Statistical Hypotheses (1986) zu ( Link zur dritten Ausgabe ), wobei das Ergebnis Halmos und Savage selbst zugeschrieben wird (siehe Lemma 7). Eine weitere gute Referenz ist Shaos Mathematical Statistics (zweite Ausgabe, 2003) , deren relevante Ergebnisse Lemma 2.1 und Theorem 2.2 sind.
Das obige Lemma besagt, dass Sie, wenn Sie mit einer Familie von Maßeinheiten beginnen, die von einem σ-σ endlichen Maß dominiert werden , das dominierende Maß tatsächlich durch eine abzählbare konvexe Kombination von Maßeinheiten innerhalb der Familie ersetzen können. Schervish schreibt vor dem Satz A.78:
"In statistischen Anwendungen werden wir oft eine Klasse von Maßen haben, von denen jede in Bezug auf ein einzelnes σ-σ endliches Maß absolut stetig ist . Es wäre schön, wenn das einzelne dominierende Maß in der ursprünglichen Klasse wäre oder aus dem konstruiert werden könnte Das folgende Theorem behandelt dieses Problem. "
Ein konkretes Beispiel
Angenommen, wir messen eine Größe X, vonX der wir glauben, dass sie für ein unbekanntes θ > 0 gleichmäßig auf das Intervall [ 0 , θ ] verteilt ist[0,θ] . In diesem statistischen Problem betrachten wir implizit die Menge P der Borel-Wahrscheinlichkeitsmaße für R, die aus den Gleichverteilungen in allen Intervallen der Form [ 0 , θ ] besteht . Das heißt, wenn λ Bezeichnet Lebesguemaß und für θ > 0 , P θ bezeichnet die Uniform ( [θ>0PR[0,θ]λθ>0Pθ0 , & thgr; ] )Uniform([0,θ]) Verteilung (dh
P & thgr; ( A ) = 1θ & lgr;(A∩[0,θ])=∫A1θ 1[0,θ](x)d xPθ(A)=1θλ(A∩[0,θ])=∫A1θ1[0,θ](x)dx
für jedes Borel A ⊆ RA⊆R ), dann haben wir einfach
P = { P θ : θ > 0 } . P={Pθ:θ>0}.
Dies ist der Satz von Kandidatenverteilungen für unsere Messung XX .
Die Familie PP wird eindeutig vom Lebesgue-Maß λλ (das σ-σ endlich ist) dominiert, daher garantiert das obige Lemma (mit ℵ = Pℵ=P ) die Existenz einer Folge { c i } ∞ i = 1{ci}∞i=1 von nichtnegativen Zahlen, die sich zu 11 und a summieren Sequenz { Q i } ∞ i = 1{Qi}∞i=1 gleichmäßiger Verteilung in PP , so daß
P θ « ∞ & Sigma; i = 1 c i Q iPθ≪∑i=1∞ciQi
für jedes θ > 0θ>0 . In diesem Beispiel können wir solche Sequenzen explizit konstruieren!
Zunächst sei ( θ i ) ∞ i = 1(θi)∞i=1 eine Aufzählung der positiven rationalen Zahlen ( dies kann explizit erfolgen ) und sei Q i = P θ iQi=Pθi für jedes ii . Als nächstes sei c i = 2 - ici=2−i , so dass ∑ ∞ i = 1 c i = 1 ist∑∞i=1ci=1 . Ich behaupte, dass diese Kombination von { c i } ∞ i = 1{ci}∞i=1 und { Qi } ∞ i = 1{Qi}∞i=1 funktioniert.
Um dies zu sehen, fix θ > 0θ>0 und lassen AA eine Teilmenge von Borel sein RR , so daß & Sigma; ∞ i = 1 c i Q i ( A ) = 0∑∞i=1ciQi(A)=0 . Wir müssen zeigen, dass P θ ( A ) = 0 istPθ(A)=0 . Da ∑ ∞ i = 1 c i Q i ( A ) = 0∑∞i=1ciQi(A)=0 und jeder Summand nicht negativ ist, folgt daraus, dass c i Q i( A ) = 0ciQi(A)=0 für jedes ii . Da darüber hinaus jedes c ici positiv ist, folgt, dass Q i ( A ) = 0Qi(A)=0 für jedes i isti . Das heißt, für alle ii gilt
Q i ( A ) = P θ i ( A ) = 1θiλ(A∩[0,θi])=0.Qi(A)=Pθi(A)=1θiλ(A∩[0,θi])=0.
Since each θiθi is positive, it follows that λ(A∩[0,θi])=0λ(A∩[0,θi])=0 for each ii.
Now choose a subsequence {θik}∞k=1{θik}∞k=1 of {θi}∞i=1{θi}∞i=1 which converges to θθ from above (this can be done since QQ is dense in RR).
Then A∩[0,θθik]↓A∩[0,θ]A∩[0,θθik]↓A∩[0,θ] as k→∞k→∞, so by continuity of measure we conclude that
λ(A∩[0,θ])=limk→∞λ(A∩[0,θik])=0,λ(A∩[0,θ])=limk→∞λ(A∩[0,θik])=0,
and so Pθ(A)=0Pθ(A)=0.
This proves the claim.
Thus, in this example we were able to explicitly construct a countable convex combination of probability measures from our dominated family which still dominates the entire family.
The Lemma above guarantees that this can be done for any dominated family (at least as long as the dominating measure is σσ-finite).
The Halmos-Savage Theorem
So now on to the Halmos-Savage Theorem (for which I will use slightly different notation than in the question due to personal preference).
Given the Halmos-Savage Theorem, the Fisher-Neyman factorization theorem is just one application of the Doob-Dynkin lemma and the chain rule for Radon-Nikodym derivatives away!
Halmos-Savage Theorem.
Let (X,B,P)(X,B,P) be a dominated statistical model (meaning that PP is a set of probability measures on BB and there is a σσ-finite measure μ on B such that P≪μ for all P∈P).
Let T:(X,B)→(T,C) be a measurable function, where (T,C) is a standard Borel space.
Then the following are equivalent:
- T is sufficient for P (meaning that there is a probability kernel r:B×T→[0,1] such that r(B,T) is a version of P(B∣T) for all B∈B and P∈P).
- There exists a sequence {ci}∞i=1 of nonnegative numbers such that ∑∞i=1ci=1 and a sequence {Pi}∞i=1 of probability measures in P such that P≪P∗ for all P∈P, where P∗=∑∞i=1ciPi, and for each P∈P there exists a T-measurable version of dP/dP∗.
Proof.
By the lemma above, we may immediately replace μ by P∗=∑∞i=1ciPi for some sequence {ci}∞i=1 of nonnegative numbers such that ∑∞i=1ci=1 and a sequence {Pi}∞i=1 of probability measures in P.
(1. implies 2.)
Suppose T is sufficient.
Then we must show that there are T-measurable versions of dP/dP∗ for all P∈P.
Let r be the probability kernel in the statement of the theorem.
For each A∈σ(T) and B∈B we have
P∗(A∩B)=∞∑i=1ciPi(A∩B)=∞∑i=1ci∫APi(B∣T)dPi=∞∑i=1ci∫Ar(B,T)dPi=∫Ar(B,T)dP∗.
Thus r(B,T) is a version of P∗(B∣T) for all B∈B.
For each P∈P, let fP denote a version of the Radon-Nikodym derivative dP/dP∗ on the measurable space (X,σ(T)) (so in particular fP is T-measurable).
Then for all B∈B and P∈P we have
P(B)=∫XP(B∣T)dP=∫Xr(B,T)dP=∫Xr(B,T)fPdP∗=∫XP∗(B∣T)fPdP∗=∫XEP∗[1BfP∣T]dP∗=∫BfPdP∗.
Thus in fact fP is a T-measurable version of dP/dP∗ on (X,B).
This proves that the first condition of the theorem implies the second.
(2. implies 1.)
Suppose one can choose a T-measurable version fP of dP/dP∗ for each P∈P.
For each B∈B, let r(B,t) denote a particular version of P∗(B∣T=t) (e.g., r(B,t) is a function such that r(B,T) is a version of P∗(B∣T)).
Since (T,C) is a standard Borel space, we may choose r in a way that makes it a probability kernel (see, e.g., Theorem B.32 in Schervish's Theory of Statistics (1995)).
We will show that r(B,T) is a version of P(B∣T) for any P∈P and any B∈B.
Thus, let A∈σ(T) and B∈B be given.
Then for all P∈P we have
P(A∩B)=∫A1BfPdP∗=∫AEP∗[1BfP∣T]dP∗=∫AP∗(B∣T)fPdP∗=∫Ar(B,T)fPdP∗=∫Ar(B,T)dP.
This shows that r(B,T) is a version of P(B∣T) for any P∈P and any B∈B, and the proof is done.
Summary.
The important technical result underlying the Halmos-Savage theorem as presented here is the fact that a dominated family of probability measures is actually dominated by a countable convex combination of probability measures from that family.
Given that result, the rest of the Halmos-Savage theorem is mostly just manipulations with basic properties of Radon-Nikodym derivatives and conditional expectations.