Erwarteter Vorhersagefehler - Ableitung


20

Es fällt mir schwer, die Ableitung des erwarteten Vorhersagefehlers nach unten (ESL) zu verstehen, insbesondere die Ableitung von 2.11 und 2.12 (Konditionierung, der Schritt zum punktweisen Minimum). Alle Hinweise oder Links sehr geschätzt.

Unten melde ich den Auszug aus ESL pg. 18. Die ersten beiden Gleichungen lauten der Reihe nach Gleichung 2.11 und 2.12.


Es sei ein reeller Zufallseingabevektor und eine reelle Zufallseingabevariable mit gemeinsamer Verteilung . Wir suchen eine Funktion um gegebene Werte der Eingabe vorherzusagen . Diese Theorie erfordert eine Verlustfunktion um Fehler in der Vorhersage zu bestrafen, und der bei weitem häufigste und bequemste ist der quadratische Fehlerverlust : . Dies führt uns zu einem Kriterium für die Wahl von ,XRpYRPr(X,Y)f(X)YXL ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2 f L(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

der erwartete (quadrierte) Vorhersagefehler. Durch Konditionieren auf können wir EPE als schreibenX

EPE(f)=EXEY|X([Yf(X)]2|X)

und wir sehen, dass es ausreicht, EPE punktuell zu minimieren:

f(x)=argmincEY|X([Yc]2|X)

Die Lösung ist

f(x)=E(Y|X=x)

die bedingte Erwartung, auch Regressionsfunktion genannt.


Das Vertauschen von und in der ersten Gleichung im Wikipedia-Artikel zum Gesetz der totalen Erwartung ergibt die Äquivalenz von (2.9) und (2.11). Lesen Sie diesen Artikel für Beweise. (2.12) ist unmittelbar, sofern wird, um die EPE zu minimieren. Y fXYf
Whuber

3
Randnotiz: Dies ist von Elements of Statistical Learning
Zhubarb

2
Wenn Sie dieses Buch auch lesen
möchten,

@ Dodgie Dieser Link ist gestorben: (
Matthew Drury

2
@MatthewDrury Zum Glück eines googeln von „WeatherMax und Epstein Statistik“ ergab einen Link als erstes Ergebnis;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/...
Dodgie

Antworten:


16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)

3
Ich verstehe, was Sie geschrieben haben, aber denken Sie, wenn das OP durch die in der Frage gezeigte Ableitung verwirrt war, wird er / sie Ihre Antwort verstehen? natürlich habe ich die in der frage gezeigte ableitung schon verstanden.
Mark L. Stone

Ich bin mit der gleichen Frage von Google hierher gekommen und finde, dass diese Ableitung genau das ist, was ich brauchte.
Semikolons und Klebeband

1
@ MarkL.Stone - das mag eine blöde Frage sein, aber könntest du erklären, was mit gemeint ist und wie es ? Vielen Dankp ( x , y ) d x d yPr(dx,dy)p(x,y)dxdy
Xavier Bourret Sicotte

1
Was mit dem ersteren gemeint ist, ist das letztere. Ich denke, es ist üblicher, stattdessen dP (x, y) oder dF (x, y) zu verwenden. In 1D bedeutet dF (x) häufig f (x) dx, wobei f (x) die Wahrscheinlichkeitsdichtefunktion ist, die Notation jedoch auch diskrete Wahrscheinlichkeitsmassenfunktionen (summiert) oder sogar eine Mischung aus zulassen kann kontinuierliche Dichte und diskrete Wahrscheinlichkeitsmasse.
Mark L. Stone

Wäre es nicht genauer zu sagen (letzte Formel) ? EX(EY|X([Yf(X)]2|X=x))
D1X

11

Die Gleichung (2.11) ist eine Folge der folgenden geringen Gleichheit. Für zwei beliebige Zufallsvariablen und und eine beliebige FunktionZ 2 gZ1Z2g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

Die Notation ist die Erwartung über die gemeinsame Verteilung. Die Notation besagt im Wesentlichen "über die bedingte Verteilung von als ob fest wäre". EEZ1,Z2 Z1Z2EZ1Z2Z1Z2

Dies lässt sich leicht überprüfen, wenn und diskrete Zufallsvariablen sind, indem nur die Definitionen entfernt werdenZ 2Z1Z2

EZ2(EZ1Z2(G(Z1,Z2)Z2))=EZ2(z1G(z1,Z2)Pr(Z1=z1Z2))=z2(z1G(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2G(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2G(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(G(Z1,Z2))

Der fortlaufende Fall kann entweder informell als Grenze dieses Arguments angesehen oder formal verifiziert werden, sobald alle maßnahmentheoretischen Voraussetzungen erfüllt sind.

Nehmen Sie zum Abwickeln der Anwendung , und . Alles genau ausgerichtet.Z 2 = X g ( x , y ) = ( y - f ( x ) ) 2Z1=Y.Z2=XG(x,y)=(y-f(x))2

Die Behauptung (2.12) fordert uns auf, eine Minimierung in Betracht zu ziehen

EXEY.X(Y.-f(X))2

wo wir frei wählen können wie wir wollen. Wenn wir uns wieder auf den diskreten Fall konzentrieren und auf halbem Wege in die oben beschriebene Abwicklung eintauchen, sehen wir, dass wir minimierenf

x(y(y-f(x))2Pr(Y.=yX=x))Pr(X=x)

Alles in der großen Klammer ist nicht negativ, und Sie können eine Summe nicht negativer Größen minimieren, indem Sie die Summanden einzeln minimieren. Im Kontext bedeutet dies, dass wir zum Minimieren auswählen könnenf

y(y-f(x))2Pr(Y.=yX=x)

einzeln für jeden diskreten Wert von . Dies ist genau der Inhalt dessen, was ESL behauptet, nur mit schicker Notation.x


8

Ich finde einige Teile in diesem Buch so, dass sie schwer zu verstehen sind, insbesondere für diejenigen, die keinen ausgeprägten statistischen Hintergrund haben.

Ich werde versuchen, es einfach zu machen und hoffe, dass Sie die Verwirrung loswerden können.

Anspruch 1 (Glätten) E(X)=E(E(X|Y.)),X,Y.

Beweis : Beachten Sie, dass E (Y) eine Konstante ist, aber E (Y | X) eine Zufallsvariable in Abhängigkeit von X.

E(E(X|Y.))=E(X|Y.=y)fY.(y)dy=xfX|Y.(x|y)dxfY.(y)dy=xfX|Y.(x|y)fY.(y)dxdy=xfXY.(x,y)dxdy=x(fXY.(x,y)dy)dx=xfX(x)dx=E(X)

Anspruch 2 :E(Y.-f(X))2E(Y.-E(Y.|X))2,f

Beweis :

E((Y.-f(X))2|X)=E(([Y.-E(Y.|X)]+[E(Y.|X)-f(X)])2|X)=E((Y.-E(Y.|X))2|X)+E((E(Y.|X)-f(X))2|X)+2E((Y.-E(Y.|X))(E(Y.|X)-f(X))|X)=E((Y.-E(Y.|X))2|X)+E((E(Y.|X)-f(X))2|X)+2(E(Y.|X)-f(X))E(Y.-E(Y.|X))|X)( schon seit E(Y.|X)-f(X) ist konstant gegeben X)=E((Y.-E(Y.|X))2|X)+E((E(Y.|X)-f(X))2|X) (verwenden Sie Anspruch 1 )E((Y.-E(Y.|X))2|X)

Unter der Annahme beider Seiten der obigen Gleichung ergibt sich Anspruch 2 (QED).

Daher ist das Optimum ff(X)=E(Y.|X)

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.