Eine Verallgemeinerung des Gesetzes der wiederholten Erwartungen

43

Ich bin kürzlich auf diese Identität gestoßen:

E [E (Y | X, Z) | X] = E [Y | X]

$E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right]$

Ich kenne natürlich die einfachere Version dieser Regel, nämlich dass aber ich konnte keine Rechtfertigung dafür finden seine Verallgemeinerung. $E \left[ E \left(Y|X \right) \right]=E \left(Y\right)$

Ich wäre dankbar, wenn jemand mich auf eine weniger technische Referenz für diese Tatsache hinweisen oder, noch besser, wenn jemand einen einfachen Beweis für dieses wichtige Ergebnis erbringen könnte.

self-study conditional-probability conditional-expectation

— JohnK
quelle

2

Wenn selbst auf ein konditioniert wäre, würde dies dann nicht genau aus der einfacheren Version fallen?

y

$y$

x

$x$

— Mehrdad

36

INFORMELLE BEHANDLUNG

Wir sollten uns daran erinnern, dass die Notation, in der wir Zufallsvariablen bedingen, als Notation ungenau, wenn auch wirtschaftlich ist. In Wirklichkeit bedingen wir die Sigma-Algebra, die diese Zufallsvariablen erzeugen. Mit anderen Worten soll sich auf mittlere . Diese Bemerkung mag in einer "informellen Behandlung" unangebracht erscheinen, erinnert uns jedoch daran, dass unsere konditionierenden Entitäten Sammlungen von Mengen sind (und wenn wir von einem einzelnen Wert konditionieren, ist dies eine Singleton-Menge). Und was enthalten diese Sets? Sie enthalten die Informationen, mit denen die möglichen Werte der Zufallsvariablen Auskunft geben , was mit der Realisierung von geschehen kann . $E[Y\mid X]$ $E[Y\mid \sigma(X)]$ $X$ $Y$
Bringing in dem Konzept der Informationen, ermöglicht es uns , über (und Verwendung) zu denken , das Gesetz der Iterated Erwartungen auf eine sehr intuitive Art und Weise (manchmal auch als „Tower Property“ genannt):
Sigma-Algebra , die durch zwei Zufallsvariablen, ist zumindest als groß wie das, was durch eine Zufallsvariable erzeugt wird: in der richtigen satztheoretischen Bedeutung. Die Information über in ist also mindestens so groß wie die entsprechende Information in . Setzen Sie nun als Anspielung auf die Schreibweise und . Dann kann die LHS der Gleichung, die wir betrachten, geschrieben werden $\sigma (X) \subseteq \sigma(X,Z)$ $Y$ $\sigma(X,Z)$ $\sigma (X)$
$\sigma (X) \equiv I_x$ $\sigma(X,Z) \equiv I_{xz}$

E [E (Y. | {ich}_{X z}) | {ich}_{X}]

$E \left[ E \left(Y|I_{xz} \right) |I_{x} \right]$ Wir haben den obigen Ausdruck verbal beschrieben: "Was ist die Erwartung von {dem erwarteten Wert von gegebener Information } gegeben , dass wir zur Verfügung stehenden Informationen haben nur ?“

Y

$Y$

I_{x z}

$I_{xz}$

I_{x}

$I_x$

Können wir irgendwie "berücksichtigen" ? Nein - wir kennen nur . Aber wenn wir verwenden, was wir haben (wie wir durch den Ausdruck, den wir auflösen wollen, verpflichtet sind), dann sagen wir im Wesentlichen Dinge über unter dem Erwartungsoperator, dh wir sagen " ", nicht mehr - Wir haben gerade unsere Informationen erschöpft. $I_{xz}$ $I_x$ $Y$ $E(Y\mid I_x)$

Also

E [E (Y | I_{x z}) | I_{x}] = E (Y | I_{x})

$E \left[ E \left(Y|I_{xz} \right) |I_{x} \right] = E\left(Y|I_{x} \right)$

Wenn es jemand anderes nicht tut, werde ich zur formellen Behandlung zurückkehren.

Eine (etwas mehr) FORMALE BEHANDLUNG

Lassen Sie uns sehen, wie zwei sehr wichtige Bücher der Wahrscheinlichkeitstheorie, P. Billingsleys Probability and Measure (3d ed.-1995) und D. Williams "Probability with Martingales" (1991), die Frage des Beweises des "Gesetzes der wiederholten Erwartungen" behandeln:
Billingsley widmet dem Beweis genau drei Zeilen. Williams und ich zitieren, sagt

"(die Turmeigenschaft) ergibt sich praktisch unmittelbar aus der Definition der bedingten Erwartung".

Das ist eine Textzeile. Billingsleys Beweis ist nicht weniger undurchsichtig.

Sie haben natürlich Recht: Diese wichtige und sehr intuitive Eigenschaft der bedingten Erwartung ergibt sich im Wesentlichen direkt (und fast sofort) aus ihrer Definition. Das einzige Problem besteht meines Erachtens darin, dass diese Definition normalerweise nicht gelehrt oder zumindest nicht hervorgehoben wird oder theoretische Kreise messen. Aber um in (fast) drei Zeilen zu zeigen, dass das Gesetz der wiederholten Erwartungen gilt, brauchen wir die Definition der bedingten Erwartung oder vielmehr ihrer definierenden Eigenschaft .

Läßt einen Wahrscheinlichkeitsraum , und einen integrierbare Zufallsvariable . Lassen sein , ein sub- -Algebra von , . Dann existiert eine Funktion , die -measurable ist, integrierbar ist und (dies ist die definierende Eigenschaft) $(\Omega, \mathcal F, \mathbf P)$ $Y$ $\mathcal G$ $\sigma$ $\mathcal F$ $\mathcal G \subseteq \mathcal F$ $W$ $\mathcal G$

E (W \cdot 1_{G}) = E (Y \cdot 1_{G}) \forall G \in G [1]

$E(W\cdot\mathbb 1_{G}) = E(Y\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal G \qquad [1]$

wo ist die Indikatorfunktion der Menge . Wir sagen , dass ist ( „eine Version von“) , um die bedingte Erwartung von gegeben , und wir schreiben die kritische Detail zu beachten ist hier , dass die bedingte Erwartung , hat den gleichen Erwartungswert wie hat, nicht nur über die gesamte , sondern in jeder Teilmenge von . $1_{G}$ $G$ $W$ $Y$ $\mathcal G$ $W = E(Y\mid \mathcal G) \;a.s.$
$Y$ $\mathcal G$ $G$ $\mathcal G$

(Ich werde jetzt versuchen, darzustellen, wie sich die Tower-Eigenschaft aus der Definition der bedingten Erwartung ableitet.)

$W$ ist eine messbare Zufallsvariable. Betrachten wir dann einige sub- -Algebra, sagen . Dann . So, in analoger Weise wie vorher, haben wir die bedingte Erwartung gegeben , sagen dass durch das gekennzeichnet, $\mathcal G$ $\sigma$ $\mathcal H \subseteq \mathcal G$ $G\in \mathcal H \Rightarrow G\in \mathcal G$ $W$ $\mathcal H$ $U=E(W\mid \mathcal H) \;a.s.$

E (U \cdot 1_{G}) = E (W \cdot 1_{G}) \forall G \in H [2]

$E(U\cdot\mathbb 1_{G}) = E(W\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal H \qquad [2]$

Seit geben uns die Gleichungen und $\mathcal H \subseteq \mathcal G$ $[1]$ $[2]$

E (U \cdot 1_{G}) = E (Y \cdot 1_{G}) \forall G \in H [3]

$E(U\cdot\mathbb 1_{G}) = E(Y\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal H \qquad [3]$

Aber dies ist die definierende Eigenschaft der bedingten Erwartung der gegeben . $Y$ $\mathcal H$ Wir sind also berechtigt, zu schreiben Da wir auch durch die Konstruktion , wir den Turm Eigenschaft nur bewiesen, oder allgemeine Form des Gesetzes der wiederholten Erwartungen - in acht Zeilen. $U=E(Y\mid \mathcal H)\; a.s.$
$U = E(W\mid \mathcal H) = E\big(E[Y\mid \mathcal G]\mid \mathcal H\big)$

— Alecos Papadopoulos
quelle

6

(+1) Dies ist eine hilfreiche Methode, um ein abstraktes und schwieriges Konzept zu beschreiben. Ich glaube jedoch, dass der Satz "... ist nicht größer ..." lauten sollte "ist nicht kleiner". Besser noch, dieser Abschnitt könnte durch Entfernen der Negative und Verwenden einer Parallelkonstruktion deutlicher gemacht werden, wie in "Die von zwei Variablen erzeugte Sigmaalgebra ist mindestens so groß wie die von einer Zufallsvariablen erzeugte ... Also enthielt die Information über in ist mindestens so groß wie die entsprechende Information in . "

Y

$Y$

σ (X, Z)

$\sigma(X,Z)$

σ (X)

$\sigma(X)$

— whuber

Danke euch beiden, cc @whuber. Dies ist ein sehr nützlicher Satz.

— JohnK

@whuber Danke, dass du das entdeckt hast - und für den Vorschlag.

— Alecos Papadopoulos

24

Ich verstehe die bedingten Erwartungen und unterrichte meine Schüler wie folgt:

Bedingte Erwartung ist ein Bild, das von einer Kamera mit der Auflösung $E[Y|\sigma(X)]$ $\sigma(X)$

Wie von Alecos Papadopoulos erwähnt, ist die Notation genauer als . Entlang der Kamera kann man sich als das ursprüngliche Objekt vorstellen, z. B. eine Landschaft, eine Szenerie. ist ein Bild, das von einer Kamera mit einer Auflösung von . Die Erwartung ist ein Durchschnittsoperator ("Unschärfe" -Operator?). Das Szenario kann eine Menge Dinge enthalten, aber das Bild, das Sie mit einer Kamera mit niedriger Auflösung aufgenommen haben, lässt mit Sicherheit einige Details verschwinden, z. B. befindet sich möglicherweise ein UFO am Himmel, das Sie mit bloßem Auge sehen können, dies jedoch nicht erscheint in deinem Bild aufgenommen von (iphone 3?) $E[Y|\sigma(X)]$ $E[Y|X]$ $Y$ $E[Y|\sigma(X,Z)]$ $\sigma(X,Z)$

Wenn die Auflösung so hoch ist, dass , kann dieses Bild jedes Detail der realen Szenerie erfassen. In diesem Fall haben wir . $\sigma(X,Z)=\sigma(Y)$ $E[Y|\sigma(Y)]=Y$

Nun kann wie folgt angesehen werden: Verwenden einer anderen Kamera mit einer Auflösung (z. B. iphone 1), die niedriger als (z. B. iphone 3) und machen Sie ein Bild auf dem Bild, das von der Kamera mit der Auflösung wurde. Dann sollte klar sein, dass dieses Bild auf einem Bild dasselbe sein sollte, als ob Sie es ursprünglich gewesen wären Verwenden Sie einfach eine Kamera mit niedriger Auflösung für die Szenerie. $E[E[Y|\sigma(X,Z)]|\sigma(X)]$ $\sigma(X)$ $\sigma(X,Z)$ $\sigma(X,Z)$ $\sigma(X)$

Dies liefert Intuition für . Tatsächlich sagt uns dieselbe Intuition, dass noch ist. Dies liegt daran, dass: Wenn Ihr erstes Foto mit dem iPhone 1 aufgenommen wurde (dh mit niedriger Auflösung) und Sie jetzt eine bessere Kamera (z. B. das iPhone 3) verwenden möchten, um ein weiteres Foto mit dem ersten Foto zu erstellen, können Sie dies nicht tun kann die Qualität des ersten Fotos verbessern. $E[E[Y|X,Z]|X]=E[Y|X]$ $E[E[Y|X]|X,Z]=E[Y|X]$

— KevinKim
quelle

2

Liebe es! :) tolle erklärung.

— Jessica

1

@ Jessica Ich bin froh, dass es hilft :-) Es dauerte eine Weile, bis ich diese Erklärung fand

— KevinKim

21

Nach dem Gesetz der wiederholten Erwartung (LIE), , ist diese innere Erwartung eine Zufallsvariable, die zufällig eine Funktion von ist, beispielsweise , und nicht a Funktion von . Dass die Erwartung dieser Funktion von passiert , die Erwartung gleich ist eine Folge eines LIE. Dies alles ist nur die Behauptung, dass der Durchschnittswert von durch Mitteln der Durchschnittswerte von $E\left[E[Y \mid X]\right] = E[Y]$ $X$ $g(X)$ $Y$ $X$ $Y$ $Y$ $Y$ unter verschiedenen Bedingungen. Tatsächlich ist alles nur eine direkte Konsequenz des Gesetzes der Gesamtwahrscheinlichkeit. Wenn zum Beispiel und diskrete Zufallsvariablen mit gemeinsamer pmf , dann $X$ $Y$ $p_{X,Y}(x,y)$

\begin{aligned} E [Y] & = \sum_{y} y \cdot p_{Y} (y) & definition \\ = \sum_{y} y \cdot \sum_{x} p_{X, Y} (x, y) & write in terms of joint pmf \\ = \sum_{y} y \cdot \sum_{x} p_{Y ∣ X} (y ∣ X = x) \cdot p_{X} (x) & write in terms of conditional pmf \\ = \sum_{x} p_{X} (x) \cdot \sum_{y} y \cdot p_{Y ∣ X} (y ∣ X = x) & interchange order of summation \\ = \sum_{x} p_{X} (x) \cdot E [Y ∣ X = x] & inner sum is conditional expectation \\ = E [E [Y ∣ X]] & RV E [Y ∣ X] has value E [Y ∣ X = x] when X = x \end{aligned}

$\begin{align} E[Y] &= \sum_y y\cdot p_Y(y) &\scriptstyle{\text{definition}}\\ &= \sum_y y \cdot \sum_x p_{X,Y}(x,y) &\scriptstyle{\text{write in terms of joint pmf}}\\ &= \sum_y y \cdot \sum_x p_{Y\mid X}(y \mid X=x)\cdot p_X(x) &\scriptstyle{\text{write in terms of conditional pmf}}\\ &= \sum_x p_X(x)\cdot \sum_y y \cdot p_{Y\mid X}(y \mid X=x) &\scriptstyle{\text{interchange order of summation}}\\ &= \sum_x p_X(x)\cdot E[Y \mid X = x] &\scriptstyle{\text{inner sum is conditional expectation}}\\ &= E\left[E[Y\mid X]\right] &\scriptstyle{\text{RV}~E[Y\mid X]~\text{has value}~E[Y\mid X=x]~\text{when}~X=x} \end{align}$ Beachten Sie, wie diese letzte Erwartung in Bezug auf ; ist eine Funktion von ,

X

$X$

E [Y ∣ X]

$E[Y\mid X]$

X

$X$

Y

$Y$ , Aber dennoch sein Mittelwert ist der gleiche wie der Mittelwert von .

Y

$Y$

Die verallgemeinerte LÜGE, die Sie betrachten, hat auf der linken Seite in der die innere Erwartung eine Funktion von zwei Zufallsvariablen und . Das Argument ähnelt dem oben beschriebenen, aber jetzt müssen wir zeigen, dass die Zufallsvariable anderen Zufallsvariablen entspricht. Wir tun dies, indem wir den Wert von wenn zufällig den Wert . Überspringen Sie die Erklärungen, wir haben das $E\left[E[Y \mid X, Z] \mid X\right]$ $h(X,Z)$ $X$ $Z$ $E[Y\mid X]$ $E[Y\mid X]$ $X$ $x$

\begin{aligned} E [Y ∣ X = x] & = \sum_{y} y \cdot p_{Y ∣ X} (y ∣ X = x) \\ = \sum_{y} y \cdot \frac{p_{X, Y} (x, y)}{p_{X} (x)} \\ = \sum_{y} y \cdot \frac{\sum_{z} p_{X, Y, Z} (x, y, z)}{p_{X} (x)} \\ = \sum_{y} y \cdot \frac{\sum_{z} p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \cdot p_{X, Z} (x, z)}{p_{X} (x)} \\ = \sum_{z} \frac{p_{X, Z} (x, z)}{p_{X} (x)} \sum_{y} y \cdot p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \\ = \sum_{z} p_{Z ∣ X} (z ∣ X = x) \cdot \sum_{y} y \cdot p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \\ = \sum_{z} p_{Z ∣ X} (z ∣ X = x) \cdot E [Y ∣ X = x, Z = z) \\ = E [E [Y ∣ X, Z] ∣ X = x] \end{aligned}

$\begin{align} E[Y \mid X = x] &= \sum_y y\cdot p_{Y\mid X}(y\mid X = x)\\ &= \sum_y y \cdot \frac{p_{X,Y}(x,y)}{p_X(x)}\\ &= \sum_y y \cdot \frac{\sum_z p_{X,Y,Z}(x,y,z)}{p_X(x)}\\ &= \sum_y y \cdot \frac{\sum_z p_{Y\mid X,Z}(y \mid X=x, Z=z)\cdot p_{X,Z}(x,z)}{p_X(x)}\\ &= \sum_z \frac{p_{X,Z}(x,z)}{p_X(x)}\sum_y y \cdot p_{Y\mid X,Z}(y \mid X=x, Z=z)\\ &= \sum_z p_{Z\mid X}(z \mid X=x)\cdot \sum_y y \cdot p_{Y\mid X,Z}(y \mid X=x, Z=z)\\ &= \sum_z p_{Z\mid X}(z \mid X=x)\cdot E[Y \mid X=x, Z=z)\\ &= E\left[E[Y\mid X,Z]\mid X = x\right] \end{align}$ Beachten Sie, dass die vorletzte rechte Seite die Formel für den bedingten erwarteten Wert der ZufallsvariablenZ] (eine Funktion von und ) konditioniert

E [Y ∣ X, Z]

$E[Y \mid X, Z]$

X

$X$

Z

$Z$ auf dem Wert von . Wir setzen fest, dass den Wert , multiplizieren die Werte der Zufallsvariablen mit dem bedingten pmf-Wert von gegebenem und addieren alle diese Terme.

X

$X$

X

$X$

x

$x$

E [Y ∣ X, Z]

$E[Y \mid X, Z]$

Z

$Z$

X

$X$

Somit ist für jeden Wert der Zufallsvariablen der Wert der Zufallsvariablen (den wir zuvor als Funktion von und nicht von notiert haben ) der gleiche wie der Wert des Zufalls Variable , dh diese beiden Zufallsvariablen sind gleich. Würde ich dich anlügen? $x$ $X$ $E[Y\mid X]$ $X$ $Y$ $E\left[E[Y \mid X,Z]\mid X\right]$

— Dilip Sarwate
quelle