"Das Konzept einer bedingten Wahrscheinlichkeit in Bezug auf eine isolierte Hypothese, deren Wahrscheinlichkeit gleich 0 ist, ist unzulässig." A. Kolmogorov
Für kontinuierliche Zufallsvariablen, wie und Y , werden bedingte Verteilungen durch die Eigenschaft definiert, dass sie das ursprüngliche Wahrscheinlichkeitsmaß wiederherstellen, dh für alle messbaren Mengen A ∈ B ( X ) , B ∈ B ( Y ) , P ( X ∈ A , Y ≤ B ) = ≤ B d P Y ( y ) ≤ B d P X | Y ( x |XYA∈B(X)B∈B(Y) Dies impliziert, dass die bedingte Dichte für Mengen von Maß Null willkürlich definiert wird, oder mit anderen Worten, dass die bedingte Dichte p X | Y ( x | y ) istfast überalldefiniert. Da die Menge { 5 , 6 } gegen das Lebesgue-Maß null ist, können Sie sowohl p ( 5 ) als auch p ( 6 ) absolut beliebig definieren und damit die Wahrscheinlichkeit P ( U = 5 |
P(X∈A,Y∈B)=∫BdPY(y)∫BdPX|Y(x|y)
pX|Y(x|y){5,6}p(5)p(6) kann einen beliebigen Wert annehmen.
P(U=5|U∈{5,6})
Dies bedeutet nicht, dass Sie eine bedingte Dichte nicht wie im bivariaten Normalfall durch die Verhältnisformel definieren können, sondern lediglich, dass die Dichte für beide beinahe überall definiert ist x und y .
f(y|x)=f(x,y)/f(x)
xy
"Viele ziemlich vergebliche Auseinandersetzungen haben - zwischen sonst kompetenten Probabilisten - darüber gestritten, welches dieser Ergebnisse 'richtig' ist." ET Jaynes
Die Tatsache, dass das einschränkende Argument (wenn auf Null geht) in der obigen Antwort eine natürliche und intuitive Antwort zu geben scheint, hängt mit Borels Paradoxon zusammen . Die Wahl der Parametrisierung im Limit ist wichtig, wie das folgende Beispiel zeigt, das ich in meinen Grundkursen verwende.ϵ
Nehmen Sie die bivariate Normal Was ist die bedingte Dichte von X gegeben , dass X = Y ?X,Y∼i.i.d.N(0,1)
XX=Y
Geht man von der Verbindungsdichte , die "intuitive" Antwort [proportional to] φ ( x ) 2 . Dies kann durch Berücksichtigung der Änderung der Variablen ( x ,φ(x)φ(y)φ(x)2 wobei T = Y - X die Dichte φ (
(x,t)=(x,y−x)∼φ(x)φ(t+x)
T=Y−X . Daher ist
f(x|t)= φ ( x ) φ ( t + x )φ(t/2–√)/2–√ und
f(x|t=0)=φ(x)φ(x)f(x|t)=φ(x)φ(t+x)φ(t/2–√)/2–√
Betrachtet man jedoch stattdessen die Änderung der Variablen
(x,r)=(x,y/x)∼φ(x)φ(rx)| x| die Randdichte von
R=Y/Xist die Cauchy-Dichte
ψ(r)=1/π{1+r2}und die bedingte Dichte von
Xf(x|t=0)=φ(x)φ(x)φ(0/2–√)/2–√=φ(x)22–√
(x,r)=(x,y/x)∼φ(x)φ(rx)|x|
R=Y/Xψ(r)=1/π{1+r2}Xgegeben
ist
f ( x | r ) = φ ( x ) φ ( r x ) | x | × π { 1 + r 2 } Daher ist
f ( x | r = 1 ) = π φ ( x ) 2 | x | / 2Rf(x|r)=φ(x)φ(rx)|x|×π{1+r2}
Und hier liegt das „Paradox“: die Ereignisse
R = 1 und
T = 0 sind die gleichen wie
X = Y , aber sie führen zu unterschiedlichen bedingten Dichten auf
X .
f(x|r=1)=πφ(x)2|x|/2.
R=1T=0X=YX