Einige weitere Schritte der Bias - Varianz - Zerlegung
In der Tat wird die vollständige Herleitung in Lehrbüchern selten angegeben, da es sich um eine Menge langweiliger Algebra handelt. Hier ist eine vollständigere Ableitung unter Verwendung der Notation aus dem Buch "Elemente des statistischen Lernens" auf Seite 223
Wenn wir annehmen , daß und und dann können wir den Ausdruck für die zu erwartenden Prädiktionsfehler einer Regressionsanpassung abzuleiten an einem Eingang Verwendung eines quadratischen FehlerverlustsY.= f( X) + ϵE[ ϵ ] = 0Va r ( ϵ ) = σ2ϵf ( X ) X = x 0f^( X)X= x0
Er r ( x0) = E[ (Y- f^( x0) )2|X= x0]
Zur Vereinfachung der Schreibweise sei , und es sei daran erinnert, dass undf^( x0) = f^f( x0) = fE[f] = fE[ Y] = f
E[ ( Y- f^)2]= E[ ( Y- f+ f- f^)2]= E[ ( y- f)2] + E[ ( f- f^)2] + 2 E[ ( f- f^) ( y- f) ]= E[ ( f+ ϵ - f)2] + E[ ( f- f^)2] + 2 E[ fY.- f2- f^Y.+ f^f]= E[ ϵ2] + E[ ( f- f^)2] + 2 ( f2- f2- fE[ f^] + fE[ f^] )= σ2ϵ+ E[ ( f- f^)2] + 0
Für den Term wir einen ähnlichen Trick wie oben anwenden, indem wir addieren und subtrahieren , um zu erhaltenE[ ( f- f^)2]E[ f^]
E[ ( f- f^)2]= E[ ( f+ E[ f^] - E[ f^] - f^)2]= E[ f- E[ f^] ]2+ E[ f^- E[ f^] ]2= [ f- E[ f^] ]2+ E[ f^- E[ f^] ]2= B i a s2[ f^] + Va r [ f^]
Etwas zusammensetzen
E[ ( Y- f^)2] = σ2ϵ+ B i a s2[ f^] + Va r [ f^]
Einige Kommentare, warumE[ f^Y.] = fE[ f^]
Entnommen hier Alecos Papadopoulos
Denken Sie daran, dass der Prädiktor ist, den wir basierend auf den Datenpunkten konstruiert haben. damit wir schreiben können, um uns daran zu erinnern.f^m{ ( x( 1 ), y( 1 )) , . . . , ( x( m ), y( m )) }f^= f^m
Andererseits ist die Vorhersage, die wir auf einem neuen Datenpunkt unter Verwendung des Modells machen, das auf den obigen Datenpunkten konstruiert ist . So kann der mittlere Fehlerquadrat als geschrieben werdenY.( x( m + 1 ), y( m + 1 ))m
E[ f^m( x( m + 1 )) - y( m + 1 )]2
Erweiterung der Gleichung aus dem vorherigen Abschnitt
E[ f^mY.] = E[ f^m(f+ ϵ ) ] = E[ f^mf+ f^mϵ ] = E[ f^mf] +E[ f^mϵ ]
Der letzte Teil der Gleichung kann als angesehen werden
E[ f^m( x( m + 1 )) ⋅ & egr;( m + 1 )] = 0
Da wir für den Punkt folgende Annahmen treffen :x( m + 1 )
- Es wurde beim Konstruieren von nicht verwendetf^m
- Es ist unabhängig von allen anderen Beobachtungen{ ( x( 1 ), y( 1 )) , . . . , ( x( m ), y( m )) }
- Es ist unabhängig vonϵ( m + 1 )
Andere Quellen mit vollständigen Ableitungen