Verständnis der Bias-Varianz-Kompromissableitung


20

Ich lese gerade das Kapitel über den Kompromiss zwischen Bias-Varianz und den Elementen des statistischen Lernens und bezweifle, dass die Formel auf Seite 29 basiert. Die Daten ergeben sich aus einem Modell, bei dem wobei zufällig ist Zahl mit dem erwarteten Wert und Varianz . Der erwartete Fehlerwert des Modells sei wobei die Vorhersage von unseres Lerners ist. Nach dem Buch ist der Fehler

Y=f(x)+ϵ
ε = E [ ε ] = 0 E [ ( ε - ε ) 2 ] = E [ ε 2 ] = σ 2 E [ ( Y - f k ( x ) ) 2 ] f k ( x ) x E [ ( Y -ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

Meine Frage ist, warum Bias-Term nicht 0 ist? bei der Entwicklung der Fehlerformel sehe ich

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

as ist eine unabhängige Zufallszahl2 E [ ( f ( x ) - f k ( x ) ) ε ] = 2 E [ ( f ( x ) - f k ( x ) ) ] E [ ε ] = 0ϵ2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

Wo irre ich mich

Antworten:


19

Sie liegen nicht falsch, aber Sie haben in einem Schritt einen Fehler gemacht, da . ist .E [ ( f ( x ) - f k ( x ) ) 2 ] MSE ( f k ( x ) ) = V a r ( f k ( x )E[(f(x)fk(x))2]Var(fk(x))E[(f(x)fk(x))2]MSE(fk(x))=Var(fk(x))+Bias2(fk(x))

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

Anmerkung: -E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.


Gibt es bei binären Ergebnissen einen gleichwertigen Beweis mit Kreuzentropie als Fehlermaß?
Emanuele

1
Bei einer binären Antwort funktioniert das nicht ganz so gut. Siehe Ex 7.2 in der zweiten Ausgabe von "The Elements of Statistical Learning".
Matthew Drury

3
Können Sie erklären, wie Sie von bis ? Var(fk ( x ) ) + Bias 2 ( f k (E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2Var(fk(x))+Bias2(fk(x))+σ2
Antoine

16

Einige weitere Schritte der Bias - Varianz - Zerlegung

In der Tat wird die vollständige Herleitung in Lehrbüchern selten angegeben, da es sich um eine Menge langweiliger Algebra handelt. Hier ist eine vollständigere Ableitung unter Verwendung der Notation aus dem Buch "Elemente des statistischen Lernens" auf Seite 223


Wenn wir annehmen , daß und und dann können wir den Ausdruck für die zu erwartenden Prädiktionsfehler einer Regressionsanpassung abzuleiten an einem Eingang Verwendung eines quadratischen FehlerverlustsY=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2f ( X ) X = x 0f^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

Zur Vereinfachung der Schreibweise sei , und es sei daran erinnert, dass undf^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

Für den Term wir einen ähnlichen Trick wie oben anwenden, indem wir addieren und subtrahieren , um zu erhaltenE[(ff^)2]E[f^]

E[(ff^)2]=E[(f+E[f^]E[f^]f^)2]=E[fE[f^]]2+E[f^E[f^]]2=[fE[f^]]2+E[f^E[f^]]2=Bias2[f^]+Var[f^]

Etwas zusammensetzen

E[(Yf^)2]=σϵ2+Bias2[f^]+Var[f^]


Einige Kommentare, warumE[f^Y]=fE[f^]

Entnommen hier Alecos Papadopoulos

Denken Sie daran, dass der Prädiktor ist, den wir basierend auf den Datenpunkten konstruiert haben. damit wir schreiben können, um uns daran zu erinnern.f^m{(x(1),y(1)),...,(x(m),y(m))}f^=f^m

Andererseits ist die Vorhersage, die wir auf einem neuen Datenpunkt unter Verwendung des Modells machen, das auf den obigen Datenpunkten konstruiert ist . So kann der mittlere Fehlerquadrat als geschrieben werdenY(x(m+1),y(m+1))m

E[f^m(x(m+1))y(m+1)]2

Erweiterung der Gleichung aus dem vorherigen Abschnitt

E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]

Der letzte Teil der Gleichung kann als angesehen werden

E[f^m(x(m+1))ϵ(m+1)]=0

Da wir für den Punkt folgende Annahmen treffen :x(m+1)

  • Es wurde beim Konstruieren von nicht verwendetf^m
  • Es ist unabhängig von allen anderen Beobachtungen{(x(1),y(1)),...,(x(m),y(m))}
  • Es ist unabhängig vonϵ(m+1)

Andere Quellen mit vollständigen Ableitungen


1
Warum ist ? Ich denke nicht, dass und unabhängig sind, da im Wesentlichen mit konstruiert ist . Y f f YE[f^Y]=fE[f^]Yf^f^Y
Felipe Pérez

5
Aber die Frage ist im Wesentlichen dieselbe, warum ? Die Zufälligkeit von ergibt sich aus dem Fehler Ich verstehe also nicht, warum und unabhängig sind, und daher . f ε f ε E ( f ε ) = 0E[f^ϵ]=0f^ϵf^ϵE(f^ϵ)=0
Felipe Pérez

Aus Ihrer Präzisierung scheint, dass die In-Sample-vs.-Out-of-Sample-Perspektive von entscheidender Bedeutung ist. Es ist so? Wenn wir nur in der Stichprobe arbeiten und dann als Residuum sehen, verschwindet der Kompromiss zwischen Bias-Varianz? ϵ
markowitz

1
@ FelipePérez Soweit ich weiß, ergibt sich die Zufälligkeit von aus der Aufteilung der Zugversuche (welche Punkte landeten im Trainingssatz und gaben als trainierten Prädiktor). Mit anderen Worten, die Varianz von ergibt sich aus allen möglichen Teilmengen eines gegebenen festen Datensatzes, den wir als Trainingsmenge nehmen können. Da der Datensatz fest ist, kommt keine Zufälligkeit von und daher sind und unabhängig voneinander. f f ε f εf^f^f^ϵf^ϵ
Alberto Santini
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.