... Der erwartete [quadratische Fehler] -Verlust kann in einen quadratischen Verzerrungsterm (der beschreibt, wie weit die durchschnittlichen Vorhersagen vom wahren Modell entfernt sind), einen Varianzterm (der die Streuung der Vorhersagen um den Durchschnitt beschreibt) und zerlegt werden ein Rauschbegriff (der das eigentliche Rauschen der Daten angibt).
Bei der Betrachtung der quadrierten Fehlerverlust Zersetzung
Ich sehe nur zwei Terme: einen für den Bias und einen für die Varianz des Schätzers oder Prädiktors, δ ( X 1 : n ) . Es gibt keine zusätzliche Rauschbedingung für den erwarteten Verlust. Da die Variabilität die Variabilität von δ ( X 1 : n ) ist , sollte dies nichtdie Variabilitätder Probe selbst sein.
Eθ[(θ−δ(X1:n))2]=(θ−Eθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]−δ(X1:n))2]
δ(X1:n)δ(X1:n)
- Kann die Bias-Varianz-Zerlegung mit anderen Verlustfunktionen als dem Quadratverlust durchgeführt werden?
Meine Interpretation der quadratischen Verzerrung + Varianzzerlegung [und wie ich sie unterrichte] ist, dass dies das statistische Äquivalent von Pythagores Theorem ist, nämlich dass der quadratische Abstand zwischen einem Schätzer und einem Punkt innerhalb einer bestimmten Menge die Summe des quadratischen Abstands ist zwischen einem Schätzer und der Menge zuzüglich des quadratischen Abstands zwischen der orthogonalen Projektion auf der Menge und dem Punkt innerhalb der Menge. Jeder Verlust, der auf einem Abstand mit einem n für einen bestimmten Modelldatensatz basiert, besteht aus mehr als einem Modell, dessen erwarteter Verlust über alle Modelle das Minimum ist. Wenn dies der Fall ist, kann dies bedeuten, dass es unterschiedliche Kombinationen von Abweichungen und Abweichungen gibt, aus denen sich das ergibt Dieselbe minimale erwartete Verlustbewegung der orthogonalen Projektion, dh ein inneres Produkt, dh im wesentlichen Hilbert-Räume, erfüllt diese Zerlegung.
- Gibt es für einen bestimmten Modelldatensatz mehr als ein Modell, dessen erwarteter Verlust über alle Modelle hinweg das Minimum ist, und wenn ja, kann dies bedeuten, dass es unterschiedliche Kombinationen von Verzerrung und Varianz gibt, die den gleichen erwarteten Mindestverlust ergeben?
minθEθ[(θ−δ(X1:n))2]
- Wie können Sie die Verzerrung berechnen, wenn Sie das wahre Modell nicht kennen?
Im allgemeinen Sinne ist die Verzerrung der Abstand zwischen dem wahren Modell und dem nächsten Modell innerhalb der angenommenen Verteilungsfamilie. Wenn das wahre Modell unbekannt ist, kann die Abweichung durch Bootstrap ermittelt werden.
- Gibt es Situationen, in denen es sinnvoller ist, die Verzerrung oder Varianz zu minimieren, als den erwarteten Verlust (die Summe aus quadratischer Verzerrung und Varianz)?
(θ−Eθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]−δ(X1:n))2]0<α
αα