Problem mit dem Nachweis der bedingten Erwartung als bester Prädiktor


19

Ich habe ein Problem mit dem Beweis von

E(Y|X)argming(X)E[(Yg(X))2]

die sehr wahrscheinlich ein tieferes Missverständnis der Erwartungen und bedingten Erwartungen aufdecken.

Der mir bekannte Beweis lautet wie folgt (eine andere Version dieses Beweises finden Sie hier )

argming(X)E[(Yg(x))2]=argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]=argming(x)E[(YE(Y|X))2+2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=argming(x)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

Der Beweis wird dann in der Regel mit einem Argument fortgesetzt, das zeigt, dass 2E[(YE(Y|X))(E(Y|X)g(X))]=0 und damit

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

Dies kann als minimiert angesehen werden, wenn g(X)=E(Y|X) .

Meine Rätsel um den Beweis sind folgende:

  1. Erwägen

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2] .

Es scheint mir, dass man unabhängig von jedem Argument, das zeigt, dass der erste Term immer gleich Null ist, sehen kann, dass die Einstellung g(X)=E(Y|X) den Ausdruck minimiert, da dies \ big (E (Y |) impliziert X) - g (X) \ big) = 0(E(Y|X)g(X))=0 und damit

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=E(0+0) = 0.

Wenn dies jedoch zutrifft, kann man den Beweis wiederholen, indem man durch eine beliebige andere Funktion von , z. B. , und zu dem Schluss kommen, dass es , das den Ausdruck minimiert. Es muss also etwas geben, das ich falsch verstehe (richtig?).X h ( X ) h ( X )E(Y|X)Xh(X)h(X)

  1. Ich habe einige Zweifel an der Bedeutung von in der Erklärung des Problems. Wie ist die Notation zu interpretieren? Bedeutet dasE[(Yg(X))2]

E Y [ ( Y - g ( X ) ) 2 ] E X Y [ ( Y - g ( X ) ) 2 ]EX[(Yg(X))2] , oder ?EY[(Yg(X))2]EXY[(Yg(X))2]

Antworten:


11

(Dies ist eine Adaption von Granger & Newbold (1986) "Forecasting Economic Time Series").

Ihre Fehlerkostenfunktion ist konstruktionsbedingt . Dies beinhaltet eine kritische Annahme (dass die Fehlerkostenfunktion um Null symmetrisch ist) - eine andere Fehlerkostenfunktion hätte nicht notwendigerweise den bedingten erwarteten Wert als das ihres erwarteten Wertes. Sie können Ihre Fehlerkostenfunktion nicht minimieren, da sie unbekannte Mengen enthält. Sie beschließen also, stattdessen den erwarteten Wert zu minimieren. Dann wird Ihre Zielfunktion argmin[Yg(X)]2argmin

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

das beantwortet meiner meinung nach auch deine zweite frage. Es ist intuitiv, dass der erwartete Wert von abhängig von , da wir versuchen, basierend auf zu schätzen / vorherzusagen . Zerlege das Quadrat, um es zu erhaltenX Y XYXYX

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

Der erste Term enthält kein , wirkt sich also nicht auf die Minimierung aus und kann ignoriert werden. Das Integral im zweiten Term ist gleich dem bedingten Erwartungswert von gegebenem , und das Integral im letzten Term ist gleich Eins. SoY Xg(X)YX

argming(x)E[Yg(X)]2=argming(x){2g(X)E(YX)+[g(X)]2}

Die erste Ableitung bezüglich ist was zu der Bedingung erster Ordnung zur Minimierung von während die zweite Ableitung gleich was für ein Minimum ausreicht.- 2 E ( Y X ) + 2 g ( X ) g ( X ) = E ( Y X ) 2 > 0g(X)2E(YX)+2g(X)g(X)=E(YX)2>0

ADDENDUM: Die Logik des Proof-Ansatzes "Addieren und Subtrahieren".

Das OP ist verwirrt über den in der Frage dargelegten Ansatz, da er tautologisch erscheint. Es ist nicht, weil , während die Taktik der Zugabe mit und Subtrahieren macht einen bestimmten Teil der Zielfunktion Null für eine beliebige Wahl des Begriffs , die hinzugefügt wird und subtrahiert wird , ist es nicht die entzerren Wertfunktion , nämlich den Wert der Ziel Funktion, die beim Minimierungskandidaten ausgewertet wird.

Für die Wahl wir die Wertefunktion Für die beliebige Auswahl wir die Wertefunktion .V ( E ( Y X ) ) = E [ ( Y -g(X)=E(YX) g ( X ) = h ( X ) V ( h ( X ) ) = E [ ( Y - h (V(E(YX))=E[(YE(YX))2X]g(X)=h(X)V(h(X))=E[(Yh(X))2X]

Ich behaupte das

, ⇒ E ( Y 2

V(E(YX))V(h(X))
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+E[(h(X))2X]

Die erste Amtszeit von LHS und RHS entfällt. Beachten Sie auch, dass die äußere Erwartung an geknüpft ist . Durch die Eigenschaften der bedingten Erwartungen kommen wir zum SchlussX

...2E(YX)E(YX)+[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)]22E(YX)h(X)+[h(X)]2

h ( x ) E ( Y | X ) E ( Y | X )

0[E(YX)h(x)]2
, die mit strenger Ungleichung gilt, wenn . Also ist der globale und einzigartige Minimierer.h(x)E(YX)E(YX)

Dies besagt aber auch, dass der "Addieren und Subtrahieren" -Ansatz hier nicht der aufschlussreichste Beweis ist.


Danke für deine Antwort. Es hilft, meine zweite Frage zu klären. Als ich im Titel der Frage zu vermitteln versuchte, ging es in meinem Hauptthema (dem ersten im Beitrag) mehr um den Beweismechanismus. Mein Hauptanliegen ist es, die Beweise zu verstehen, die ich in der Frage vorgelegt habe. Wie ich erklärte, führt mich mein Verständnis des Beweises zu einer offensichtlich problematischen Aussage. Ich würde also gerne verstehen, ob mein Fehler darin besteht, dass er tiefere Missverständnisse über Konzepte der Erwartung und der bedingten Erwartung aufzeigt. Irgendwelche Gedanken dazu?
Martin Van der Linden

1
Ich habe einige Erklärungen zum "Addieren und Subtrahieren" -Ansatz für den Beweis hinzugefügt.
Alecos Papadopoulos

Es hat einige Zeit gedauert, um es zu verstehen, aber ich habe endlich meinen grundlegenden Fehler gefunden: Richtig genug wenn , aber auf keinen Fall bedeutet dies, dass den Ausdruck minimiert . Es gibt keinen Grund, warum der Ausdruck in Klammern nicht kleiner als Null sein könnte. Aufgrund des Minuszeichens vor konnte man einige so dass . g ( X ) = h ( X ) h ( X ) ( Y - h ( X ) ) ( h ( X ) - g ( X ) ) g ( X ) E [ - 2 ( Y - h ( X ) )E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]=0g(X)=h(X)h(X)(Yh(X))(h(X)g(X))g(X)E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]<0
Martin Van der Linden

1
Hmmm ... das Minuszeichen in dem Ausdruck, auf den Sie sich beziehen, ist ein Fehler - es sollte ein Pluszeichen sein. Sie könnten dann natürlich die Begriffe neu ordnen, um wieder ein Minuszeichen zu erhalten ... schadet dies Ihrer gewonnenen Intuition?
Alecos Papadopoulos

Vielen Dank, dass Sie die Frage beantwortet haben. Ich habe den ersten Beitrag bearbeitet, um diesen Fehler zu korrigieren. Glücklicherweise schadet es meiner Meinung nach nicht der gewonnenen Intuition. Eigentlich hilft es mir, einen weiteren Fehler zu verstehen: Ich nahm an, dass das Minuszeichen wichtig ist, um zu gewährleisten, dass nicht unbedingt das Minimum von . Mir ist jedoch klar, dass es nicht nur um das Vorzeichen vor dem 2. (Hoffentlich) geht. Ich musste wirklich verstehen, dass im Allgemeinen (dh für willkürliches ) muss nicht minimiert werden, wenn (richtig?). E [ - 2 ( Y - h ( X ) ) ( h ( X ) - g ( X ) ) + X ) )0h ( X ) E [ 2 ( Y - h ( X ) ) ( h ( X ) - g (E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]h(X)g ( X ) = h ( X )E[2(Yh(X))(h(X)g(X))]g(X)=h(X)
Martin Van der Linden

5

Beachten Sie, dass Sie dies nur zeigen müssen, um die Antwort zu beweisen

E[2(YE(Y|X))(E(Y|X)g(X))]=0

Was die Erwartung angeht, nimmst du es bedingt, ansonsten den Begriff

argming(X)E[(Yg(X))2]

Macht keinen Sinn, da ist eine Zufallsvariable , wenn ist und nicht . Zeigen Sie, dass Sie wirklich oder schreiben sollten , um dies zu verdeutlichen. Angesichts dieser Klarstellung ist der Ausdruck eine Konstante und kann außerhalb der Erwartung gezogen werden, und Sie haben:E E X Y E Y | X E [ ( Y - g ( X ) ) 2 | X ] E Y | X [g(X)EEXYEY|XE[(Yg(X))2|X]( E(Y|X)-g(X) )EY|X[(Yg(X))2](E(Y|X)g(X))

2(E(Y|X)g(X))E[(YE(Y|X))|X]=2(E(Y|X)g(X))[E(Y|X)E[E(Y|X)|X]]=2(E(Y|X)g(X))[E(Y|X)E(Y|X)]=0

Daher können Sie die Zielfunktion wie folgt schreiben:

EY|X[(Yg(X))2]=EY|X[(YEY|X(Y|X))2]+(EY|X(Y|X)g(X))2

Der Minimierer ist von hier aus offensichtlich. Beachten Sie, dass , wenn Sie Durchschnitt sind als gut, dann kann ein sehr ähnliches Argument zu zeigen , verwendet werden:X

EX[(E(Y|X)g(X))2]=EX[(EY|X(Y|X)EX[EY|X(Y|X)])2]+(EX[EY|X(Y|X)]EX[g(X)])2

Dies zeigt, dass, wenn Sie für jedes , Sie auch einen Minimierer für diese Funktion haben. Also in einem gewissen Sinn ist es nicht wirklich ganz gleich , ob ist oder .g(X)=EY|X(Y|X)XEEYXEY|X


3

Es gibt einen mathematischen Standpunkt, der sehr einfach ist. Was Sie haben, ist ein Projektionsproblem in einem Hilbert-Raum, ähnlich wie das Projizieren eines Vektors in auf einen Unterraum.Rn

Sei der zugrunde liegende Wahrscheinlichkeitsraum. Damit das Problem Sinn macht, betrachten Sie die Zufallsvariablen mit endlichen Sekundenmomenten, dh den Hilbert-Raum . Das Problem ist nun folgendes: Wenn , finde die Projektion von auf den Unterraum , wobei ist das -subalgebra von , die durch . (Wie im endlich dimensionalen Fall bedeutet das Minimieren der -Entfernung zu einem Unterraum das Finden der Projektion). Die gewünschte Projektion ist(Ω,F,μ)L2(Ω,F,μ)X,YL2(Ω,F,μ)YL2(Ω,FX,μ)FXσFXL2E(X|Y) , von der Konstruktion. (Dies kennzeichnet eigentlich , wenn man den Existenznachweis prüft).E(X|Y)


Das ist eine schöne Antwort.
18.

0

In Bezug auf Ihre letzte Frage kann die Erwartung entweder wrt (der unbedingte Fehler) oder wrt (der bedingte Fehler bei jedem Wert ) sein. Glücklicherweise minimiert das Minimieren des bedingten Fehlers bei jedem Wert auch den unbedingten Fehler, so dass dies keine entscheidende Unterscheidung ist.p(x,y)p(yx)X=xX=x

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.