Interpretation der Radon-Nikodym-Ableitung zwischen Wahrscheinlichkeitsmaßen?


11

Ich habe an einigen Stellen die Verwendung der Radon-Nikodym-Ableitung eines Wahrscheinlichkeitsmaßes in Bezug auf ein anderes gesehen, insbesondere in der Kullback-Leibler-Divergenz, wo es die Ableitung des Wahrscheinlichkeitsmaßes eines Modells für einen beliebigen Parameter mit ist bezüglich des realen Parameters θ 0 :θθ0

dPθdPθ0

Wobei dies beide Wahrscheinlichkeitsmaße für den Raum von Datenpunkten sind, die von einem Parameterwert abhängig sind: .Pθ(D)=P(D|θ)

Was ist die Interpretation eines solchen Radon-Nikodym-Derivats in der Kullback-Leibler-Divergenz oder allgemeiner zwischen zwei Wahrscheinlichkeitsmaßen?

Antworten:


12

Erstens brauchen wir keine Wahrscheinlichkeitsmaße, nur Endlichkeit. So lassen M = ( Ω , F ) sein ein Messraum und lassen μ und v sein σ -finite Maßnahmen auf M .σM=(Ω,F)μνσM

Das Radon-Nikodym-Theorem besagt, dass wenn für alle A F , bezeichnet mit μ ν , dann existiert eine nicht negative Borel-Funktion f, so dass ν ( A ) = A.μ(A)=0ν(A)=0AFμνf für alle A F.

ν(EIN)=EINfdμ
EINF. .

So denke ich gerne darüber nach. Definieren wir zunächst für zwei beliebige Maße für μ ν , um μ ( A ) = zu bedeutenM.μν . Dies ist eine gültige Äquivalenzbeziehung und wir sagen, dass μ und ν in diesem Falläquivalentsind. Warum ist dies eine sinnvolle Äquivalenz für Maßnahmen? Kennzahlen sind nur Funktionen, aber ihre Domänen sind schwierig zu visualisieren. Was ist, wenn zwei gewöhnliche Funktionen f , g : RR diese Eigenschaft haben, dh f ( x ) = 0μ(EIN)=0ν(EIN)=0μνf,G::R.R. & le; Nun, definiere h ( x ) = { f ( x ) / g ( x ) g ( x ) 0 π e o.w. und beachtendass überall auf der Unterstützung von g haben wir g h = f , und außerhalb des Trägers von g g h = 0 & pgr; e = 0 = f (da ff(x)=0G(x)=0

h(x)={f(x)/g(x)g(x)0πeo.w.
ggh=fg gh=0πe=0=ff und Aktie Träger) so hgh lässt uns in f neu skalieren . Wie @whuber weist darauf hin, ist der Schlüssel Idee hier nicht 0 / 0 ist irgendwie „sicher“ zu tun oder zu ignorieren, sondern dann , wenn g = 0 , dann spielt es keine Rolle , welche h ist so können wir es nur willkürlich definieren (wie sein π e , die hier keine besondere Bedeutung hat) und die Dinge noch viel Arbeit. Auch in diesem Fall können wir die analoge Funktion h ' mit g / f so definieren, dass f h ' = g ist .gf0/0g=0hπehg/ffh=g

Als nächstes sei angenommen, dass , aber die andere Richtung gilt nicht unbedingt. Dies bedeutet, dass unsere vorherige Definition von h immer noch funktioniert, aber jetzt funktioniert h ' nicht mehr, da es tatsächliche Divisionen durch 0 hat . Somit können wir g über g h = f in f neu skalieren, aber wir können nicht in die andere Richtung gehen, weil wir etwas 0 neu skalieren müssteng(x)=0f(x)=0hh0gfgh=f0 in etwas ungleich Null .

Kehren wir nun zu und ν zurück und bezeichnen unsere RND mit f . Wenn μ ν ist , bedeutet dies intuitiv, dass eines in das andere skaliert werden kann und umgekehrt. Aber im Allgemeinen wollen wir damit nur eine Richtung einschlagen (dh ein schönes Maß wie das Lebesgue-Maß in ein abstrakteres Maß umskalieren), also brauchen wir nur μ νμνfμνμν benötigen, um nützliche Dinge zu tun. Diese Neuskalierung ist das Herzstück des RND.

Zurückkommend auf @ whuber des Punkt in den Kommentaren, gibt es eine extra Subtilität , warum es sicher ist , die Frage zu ignorieren . Das liegt daran, dass wir mit Kennzahlen immer nur Dinge bis zu Mengen von Kennzahl 0 definieren. Bei jeder Menge A mit μ ( A ) = 0 können wir unseren RND einfach dazu bringen, einen beliebigen Wert anzunehmen, z . B. 1 . So ist es nicht , dass 0 / 0 eigensicher ist , sondern überall dort, wo wir hätten 0 / 0 ist ein Satz von Maßnahme 0 WRT μ0/00Aμ(A)=010/00/00μ So können wir unseren RND einfach so definieren, dass er dort etwas Schönes ist, ohne etwas zu beeinflussen.

Nehmen wir als Beispiel an, dass für einige k > 0 ist . Dann ist ν ( A ) = kμ=νk>0 also haben wir f ( x ) = k = d ν

ν(A)=Adν=Akdμ
f(x)=k=dνdμ ist der RND (dies kann durch den Satz der Maßänderung formeller begründet werden). Dies ist gut, da wir den Skalierungsfaktor genau wiederhergestellt haben.

0f(x)=φ(x)+1Q(x)1X

P(XA)=A(φ+1Q)dλ
=Aφdλ+λ(Q)=Aφdλ
XXQ0λ

XPois(η)YBin(n,p)PXPYccc(A)=0A=

dPYdPX=dPY/dcdPX/dc=fYfX

so we can compute

PY(A)=AdPY
=AdPYdPXdPX=AdPYdPXdPXdcdc
=yAdPYdPX(y)dPXdc(y)=yAfY(y)fX(y)fX(y)=yAfY(y).

Thus because P(X=n)>0 for all n in the support of Y, we can rescale integration with respect to a Poisson distribution into integration with respect to a binomial distribution, although because everything's discrete it turns out to look like a trivial result.


I addressed your more general question but didn't touch on KL divergences. For me, at least, I find KL divergence much easier to interpret in terms of hypothesis testing like @kjetil b halvorsen's answer here. If PQ and there exists a measure μ that dominates both then using dPdQ=dP/dμdQ/dμ:=p/q we can recover the form with densities, so for me I find that easier.


3
I enjoyed this exposition (as I enjoy all of your contributions), but at bottom it seems predicated on the (repeated) assertion that 0/0 makes some kind of sense--but it does not. There's something going on with measures that doesn't automatically happen with functions of real values: you may simply ignore what happens on sets of measure zero. That's how you avoid having to make sense of 0/0 in the Radon-Nikodym derivative setting.
whuber

1
@whuber thanks a lot for the comment, that really helps. I've tried to update to address that
jld
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.