Ich schlage einen reduzierbaren Fehler vor . Dies ist auch die in Absatz 2.1.1 von Gareth, Witten, Hastie & Tibshirani, Eine Einführung in das statistische Lernen , verwendete Terminologie , ein Buch, das im Grunde eine Vereinfachung von ESL + einiger sehr cooler R-Code-Labors darstellt (mit Ausnahme der Tatsache, dass sie verwendet werden) attach
, aber hey, niemand ist perfekt). Ich werde im Folgenden die Gründe für die Vor- und Nachteile dieser Terminologie auflisten.
Zunächst einmal müssen wir daran erinnern , dass wir nicht nur annehmen Mittelwert 0 haben, aber auch sein , unabhängig von (siehe Abschnitt 2.6.1, Formel 2.29 von ESL, 2 nd Edition, 12 th Druck). Dann kann natürlich nicht aus geschätzt werden , unabhängig davon, welche Hypothesenklasse (Modellfamilie) wir wählen und wie groß eine Stichprobe ist, mit der wir unsere Hypothese lernen (unser Modell schätzen). Dies erklärt, warum als irreduzibler Fehler bezeichnet wird .ϵXϵXHσ2ϵ
In Analogie erscheint es natürlich, den verbleibenden Teil des Fehlers, , den reduzierbaren Fehler, zu definieren . Diese Terminologie mag nun etwas verwirrend klingen: Unter der Annahme, die wir für den Datengenerierungsprozess getroffen haben, können wir dies tatsächlich beweisenErr(x0)−σ2ϵ
f(x)=E[Y|X=x]
Somit kann der reduzierbare Fehler genau dann auf Null reduziert werden, wenn (vorausgesetzt natürlich, wir haben einen konsistenten Schätzer). Wenn , können wir den reduzierbaren Fehler nicht auf 0 setzen, selbst im Grenzbereich einer unendlichen Stichprobengröße. Es ist jedoch immer noch der einzige Teil unseres Fehlers, der reduziert, wenn nicht beseitigt werden kann, indem die Stichprobengröße geändert, eine Regularisierung (Schrumpfung) in unseren Schätzer eingeführt wird usw. Mit anderen Worten, indem ein anderes in unserer Modellfamilie.E[Y|X=x]∈HE[Y|X=x]∉Hf^(x)
Grundsätzlich reduzierbar ist nicht im Sinne gemeint zeroable (igitt!), Sondern im Sinne dieses Teils des Fehlers , die reduziert werden können, wenn auch nicht unbedingt beliebig klein gemacht. Beachten Sie außerdem, dass dieser Fehler im Prinzip durch Vergrößern von auf 0 reduziert werden kann, bis er . Im Gegensatz dazu nicht reduziert werden kann, egal wie groß ist, weil .HE[Y|X=x]σ2ϵHϵ⊥X