Die Gleichung (2.11) ist eine Folge der folgenden geringen Gleichheit. Für zwei beliebige Zufallsvariablen und und eine beliebige FunktionZ 2 gZ1Z2G
EZ1, Z2( g( Z1, Z2) ) = EZ2( EZ1∣ Z2( g( Z1, Z2) ∣ Z2) )
Die Notation ist die Erwartung über die gemeinsame Verteilung. Die Notation besagt im Wesentlichen "über die bedingte Verteilung von als ob fest wäre". EEZ1, Z2 Z1Z2EZ1∣ Z2Z1Z2
Dies lässt sich leicht überprüfen, wenn und diskrete Zufallsvariablen sind, indem nur die Definitionen entfernt werdenZ 2Z1Z2
EZ2( EZ1∣ Z2( g( Z1, Z2) ∣ Z2) )= EZ2( ∑z1G( z1, Z2) Pr ( Z1= z1∣ Z2) )= ∑z2( ∑z1G( z1, z2) Pr ( Z1= z1∣ Z2= z2) ) Pr ( Z2= z2)= ∑z1, z2G( z1, z2) Pr ( Z1= z1∣ Z2= z2) Pr ( Z2= z2)= ∑z1, z2G( z1, z2) Pr ( Z1= z1, Z2= z2)= EZ1, Z2( g( Z1, Z2) )
Der fortlaufende Fall kann entweder informell als Grenze dieses Arguments angesehen oder formal verifiziert werden, sobald alle maßnahmentheoretischen Voraussetzungen erfüllt sind.
Nehmen Sie zum Abwickeln der Anwendung , und . Alles genau ausgerichtet.Z 2 = X g ( x , y ) = ( y - f ( x ) ) 2Z1= YZ2= XG( x , y) = ( y- f( x ) )2
Die Behauptung (2.12) fordert uns auf, eine Minimierung in Betracht zu ziehen
EXEY.∣ X( Y- f( X) )2
wo wir frei wählen können wie wir wollen. Wenn wir uns wieder auf den diskreten Fall konzentrieren und auf halbem Wege in die oben beschriebene Abwicklung eintauchen, sehen wir, dass wir minimierenf
∑x( ∑y( y- f( x ) )2Pr ( Y= y∣ X= x ) ) Pr ( X= x )
Alles in der großen Klammer ist nicht negativ, und Sie können eine Summe nicht negativer Größen minimieren, indem Sie die Summanden einzeln minimieren. Im Kontext bedeutet dies, dass wir zum Minimieren auswählen könnenf
∑y( y- f( x ) )2Pr ( Y= y∣ X= x )
einzeln für jeden diskreten Wert von . Dies ist genau der Inhalt dessen, was ESL behauptet, nur mit schicker Notation.x