Beginnen wir mit der Intuition.
Es ist nichts Falsches daran, mit vorherzusagen . In der Tat würde eine Nichtverwendung bedeuten, dass wir wertvolle Informationen wegwerfen. Aber je mehr wir sind abhängig von den Informationen in enthaltenen mit unserer Vorhersage zu kommen, desto mehr übermäßig optimistisch unser Schätzer sein.y i y iyichy^ichyich
In einem Extremfall, wenn nur , haben Sie eine perfekte Stichprobenvorhersage ( ), aber wir sind uns ziemlich sicher, dass die Vorhersage außerhalb der Stichprobe schlecht sein wird. In diesem Fall (es ist einfach, dies selbst zu überprüfen) sind die Freiheitsgrade .yiR2=1df( y )=ny^ichyichR.2= 1df( y^) = n
Wenn Sie andererseits den Stichprobenmittelwert von : für alle , sind Ihre Freiheitsgrade nur 1.y i = ^ y i = ˉ y iyyich= yich^= y¯ich
Weitere Informationen zu dieser Intuition finden Sie in diesem schönen Handzettel von Ryan Tibshirani
Nun ein ähnlicher Beweis wie die andere Antwort, aber mit etwas mehr Erklärung
Denken Sie daran, dass der durchschnittliche Optimismus per Definition ist:
ω = E.y( E.r ri n- e r r¯¯¯¯¯¯¯)
= E.y( 1N.∑i = 1N.E.Y.0[ L ( Y.0ich, f^( xich)|T.) ] - 1N.∑i = 1N.L ( yich, f^( xich) ) )
Verwenden Sie nun eine quadratische Verlustfunktion und erweitern Sie die quadratischen Terme:
=E.y( 1N.∑i =1N.E.Y.0[ (Y.0ich- y^ich)2] - 1N.∑i = 1N.( yich- y^ich)2) )
= 1N.∑i = 1N.( E.yE.Y.0[ ( Y.0ich)2] + E.yE.Y.0[ y^2ich] - 2 E.yE.Y.0[ Y.0ichy^ich] - E.y[ y2ich] - E.y[ y^2ich] + 2 E.[ yichy^ich] )
benutze , um zu ersetzen:E.yE.Y.0[ ( Y.0ich)2] = E.y[ y2ich]]
= 1N.∑i = 1N.( E.y[ y2ich] + E.y[ yich^2] - 2 E.y[ yich] E.y[ y^ich] - E.y[ y2ich] - E.y[ y^2ich] + 2 E.[ yichy^ich] )
=2N∑i=1N(E[yiy^i]−Ey[yi]Ey[y^i])
Beachten Sie zum Schluss, dass , was ergibt:Cov(x,w)=E[xw]−E[x]E[w]
=2N∑i=1NCov(yi,y^i)