Bias-Varianz-Zerlegung

In Abschnitt 3.2 von Bishops Mustererkennung und maschinellem Lernen erörtert er die Bias-Varianz-Zerlegung und erklärt, dass für eine quadratische Verlustfunktion der erwartete Verlust in einen quadratischen Bias-Term zerlegt werden kann (der beschreibt, wie weit die durchschnittlichen Vorhersagen von den wahren abweichen Modell), ein Varianzterm (der die Streuung der Vorhersagen um den Durchschnitt beschreibt) und ein Rauschterm (der das intrinsische Rauschen der Daten angibt).

Kann die Bias-Varianz-Zerlegung mit anderen Verlustfunktionen als dem Quadratverlust durchgeführt werden?
Gibt es für einen bestimmten Modelldatensatz mehr als ein Modell, dessen erwarteter Verlust über alle Modelle hinweg das Minimum ist, und wenn ja, kann dies bedeuten, dass es unterschiedliche Kombinationen von Verzerrung und Varianz gibt, die den gleichen erwarteten Mindestverlust ergeben?
Wenn ein Modell Regularisierung beinhaltet, gibt es eine mathematische Beziehung zwischen Bias, Varianz und dem Regularisierungskoeffizienten ? $\lambda$
Wie können Sie die Verzerrung berechnen, wenn Sie das wahre Modell nicht kennen?
Gibt es Situationen, in denen es sinnvoller ist, die Verzerrung oder Varianz zu minimieren, als den erwarteten Verlust (die Summe aus quadratischer Verzerrung und Varianz)?

— Vivek Subramanian
quelle

... Der erwartete [quadratische Fehler] -Verlust kann in einen quadratischen Verzerrungsterm (der beschreibt, wie weit die durchschnittlichen Vorhersagen vom wahren Modell entfernt sind), einen Varianzterm (der die Streuung der Vorhersagen um den Durchschnitt beschreibt) und zerlegt werden ein Rauschbegriff (der das eigentliche Rauschen der Daten angibt).

Bei der Betrachtung der quadrierten Fehlerverlust Zersetzung Ich sehe nur zwei Terme: einen für den Bias und einen für die Varianz des Schätzers oder Prädiktors, . Es gibt keine zusätzliche Rauschbedingung für den erwarteten Verlust. Da die Variabilität die Variabilität von , sollte dies nichtdie Variabilitätder Probe selbst sein.

E_{θ} [(θ - δ (X_{1 : n}))^{2}] = (θ - E_{θ} [δ (X_{1 : n})])^{2} + E_{θ} [(E_{θ} [δ (X_{1 : n})] - δ (X_{1 : n}))^{2}]

$\mathbb{E}_\theta[(\theta-\delta(X_{1:n}))^2]=(\theta-\mathbb{E}_\theta[\delta(X_{1:n})])^2+\mathbb{E}_\theta[(\mathbb{E}_\theta[\delta(X_{1:n})]-\delta(X_{1:n}))^2]$

δ (X_{1 : n})

$\delta(X_{1:n})$

δ (X_{1 : n})

$\delta(X_{1:n})$

Kann die Bias-Varianz-Zerlegung mit anderen Verlustfunktionen als dem Quadratverlust durchgeführt werden?

Meine Interpretation der quadratischen Verzerrung + Varianzzerlegung [und wie ich sie unterrichte] ist, dass dies das statistische Äquivalent von Pythagores Theorem ist, nämlich dass der quadratische Abstand zwischen einem Schätzer und einem Punkt innerhalb einer bestimmten Menge die Summe des quadratischen Abstands ist zwischen einem Schätzer und der Menge zuzüglich des quadratischen Abstands zwischen der orthogonalen Projektion auf der Menge und dem Punkt innerhalb der Menge. Jeder Verlust, der auf einem Abstand mit einem n für einen bestimmten Modelldatensatz basiert, besteht aus mehr als einem Modell, dessen erwarteter Verlust über alle Modelle das Minimum ist. Wenn dies der Fall ist, kann dies bedeuten, dass es unterschiedliche Kombinationen von Abweichungen und Abweichungen gibt, aus denen sich das ergibt Dieselbe minimale erwartete Verlustbewegung der orthogonalen Projektion, dh ein inneres Produkt, dh im wesentlichen Hilbert-Räume, erfüllt diese Zerlegung.

Gibt es für einen bestimmten Modelldatensatz mehr als ein Modell, dessen erwarteter Verlust über alle Modelle hinweg das Minimum ist, und wenn ja, kann dies bedeuten, dass es unterschiedliche Kombinationen von Verzerrung und Varianz gibt, die den gleichen erwarteten Mindestverlust ergeben?

min_{θ} E_{θ} [(θ - δ (X_{1 : n}))^{2}]

$\min_\theta \mathbb{E}_\theta[(\theta-\delta(X_{1:n}))^2]$

Wie können Sie die Verzerrung berechnen, wenn Sie das wahre Modell nicht kennen?

Im allgemeinen Sinne ist die Verzerrung der Abstand zwischen dem wahren Modell und dem nächsten Modell innerhalb der angenommenen Verteilungsfamilie. Wenn das wahre Modell unbekannt ist, kann die Abweichung durch Bootstrap ermittelt werden.

Gibt es Situationen, in denen es sinnvoller ist, die Verzerrung oder Varianz zu minimieren, als den erwarteten Verlust (die Summe aus quadratischer Verzerrung und Varianz)?

(θ - E_{θ} [δ (X_{1 : n})])^{2} + α [(E_{θ} [δ (X_{1 : n})] - δ (X_{1 : n}))^{2}] 0 < α

$(\theta-\mathbb{E}_\theta[\delta(X_{1:n})])^2+\alpha[(\mathbb{E}_\theta[\delta(X_{1:n})]-\delta(X_{1:n}))^2]\qquad 0<\alpha$

α

$\alpha$

α

$\alpha$

— Xi'an
quelle

f

$f$

Y = f (X) + ϵ

$Y = f(X) + \epsilon$

ϵ

$\epsilon$

σ_{ϵ}

$\sigma_\epsilon$

f (X)

$f(X)$

E [\hat{f} (X)]

$E[\hat{f}(X)]$

E [(Y - f (X))^{2} | X = x]

$E[(Y-f(X))^2 | X=x]$

σ_{ϵ}^{2} + {Bias}^{2} \hat{f} (x) + Var \hat{f} (x)

$\sigma^2_\epsilon + \operatorname{Bias}^2 \hat{f}(x) + \operatorname{Var} \hat{f}(x)$

\hat{f}

$\hat f$

ϵ

$\epsilon$

Hmm, du hast natürlich recht. Aber ich denke, das Problem ist ein Artefakt meiner schlampigen Ableitung. Siehe Seite 223

— Miguel

ϵ

$\epsilon$

\hat{f}

$\hat{f}$