Die Ähnlichkeit ist mehr als oberflächlich.
Der "Bias-Varianz-Kompromiss" kann als der Satz von Pythagoras interpretiert werden, der auf zwei senkrechte euklidische Vektoren angewendet wird: Die Länge des einen ist die Standardabweichung und die Länge des anderen ist die Bias. Die Länge der Hypotenuse ist der quadratische Mittelwertfehler.
Eine grundlegende Beziehung
Betrachten Sie als Ausgangspunkt diese aufschlussreiche Berechnung, die für jede Zufallsvariable mit einem endlichen zweiten Moment und einer reellen Zahl a gültig ist . Da das zweite Moment endlich ist, hat X einen endlichen Mittelwert μ = E (X.einX. für den E ( X - μ ) = 0 ist , woherμ = E ( X.)E (X.- μ ) = 0
E ((X.- a )2)= E ( ( X.- μ+μ - a )2)= E ( ( X.- μ )2) + 2 E ( X.−μ)(μ−a)+(μ−a)2=Var(X)+(μ−a)2.(1)
Dies zeigt, wie die mittlere quadratische Abweichung zwischen und einem beliebigen "Grundlinien" -Wert istX mit variiert a : eseine quadratische Funktion von ist ein mit einem Minimum an μ , wobei die mittlere quadratische Abweichung die Varianz von ist X .aaaμX
Die Verbindung mit Schätzern und Voreingenommenheit
Jeder Schätzer θ ist eine Zufallsvariable , weil (per Definition) es dich um eine (messbare) Funktion des Zufallsvariablen ist. Lass es die Rolle von X spielenθ^X in der vorhergehenden, und lassen Sie die estimand (das Ding θ zu schätzen soll) sein θ , haben wirθ^θ
MSE(θ^)=E((θ^−θ)2)=Var(θ^)+(E(θ^)−θ)2.
Kehren wir nun zu , nachdem wir gesehen haben, wie die Aussage über Bias + Varianz für einen Schätzer buchstäblich ein Fall von ( 1 ) ist . Die Frage sucht nach "mathematischen Analogien mit mathematischen Objekten". Wir können mehr als das tun, indem wir zeigen, dass quadratintegrierbare Zufallsvariablen natürlich zu einem euklidischen Raum gemacht werden können.(1)(1)
Mathematischer Hintergrund
In einem sehr allgemeinen Sinne ist eine Zufallsvariable eine (messbare) reelle Funktion in einem Wahrscheinlichkeitsraum . Die Menge solcher Funktionen, die quadratisch integrierbar sind und oft L 2 ( Ω ) geschrieben werden (wobei die gegebene Wahrscheinlichkeitsstruktur verstanden wird), ist fast ein Hilbert-Raum. Um es zu einer zu machen, müssen wir zwei beliebige Zufallsvariablen X und Y zusammenführen, die sich in Bezug auf die Integration nicht wirklich unterscheiden: Das heißt, wir sagen, X und Y sind immer gleichwertig(Ω,S,P)L2(Ω)XYXY
E(|X−Y|2)=∫Ω|X(ω)−Y(ω)|2dP(ω)=0.
Es ist einfach zu überprüfen , dass dies eine wahre Äquivalenzrelation: am wichtigsten ist , wenn äquivalent ist Y und Y entspricht Z , dann notwendigerweise X äquivalent sein Z . Wir können daher alle quadratintegrierbaren Zufallsvariablen in Äquivalenzklassen unterteilen. Diese Klassen bilden die Menge L 2 ( Ω ) . Außerdem,XYYZXZL2(Ω)erbt L 2 dieVektorraumstrukturvon L 2, die durch punktweise Addition von Werten und punktweise Skalarmultiplikation definiert ist. Auf diesem Vektorraum die FunktionL2L2
X→(∫Ω|X(ω)|2dP(ω))1/2=E(|X|2)−−−−−−√
ist eine Norm , oft geschrieben . Diese Norm macht L 2 ( Ω ) zu einem Hilbert-Raum. Stellen Sie sich einen Hilbert-Raum H als einen "unendlich dimensionalen euklidischen Raum" vor. Jeder endlich dimensionale Unterraum V ⊂ H erbt die Norm von H und V , wobei diese Norm ein euklidischer Raum ist: Wir können darin euklidische Geometrie machen.||X||2L2(Ω)HV⊂HHV
Schließlich brauchen wir eine Tatsache, die speziell für Wahrscheinlichkeitsräume ist (und nicht für allgemeine Maßräume): Da eine Wahrscheinlichkeit ist, ist sie (durch 1 ) begrenzt, woraus die konstanten Funktionen ω → a (für jede feste reelle Zahl a ) bestehen quadratisch integrierbare Zufallsvariablen mit endlichen Normen.P1ω→aa
Eine geometrische Interpretation
Betrachten Sie jede quadratintegrierbare Zufallsvariable , die als Vertreter ihrer Äquivalenzklasse in L 2 ( Ω ) angesehen wird . Es hat einen Mittelwert μ = E ( X ), der (wie man überprüfen kann) nur von der Äquivalenzklasse von X abhängt . Sei 1 : ω → 1 die Klasse der konstanten Zufallsvariablen.XL2(Ω)μ=E(X)X1:ω→1
und 1 erzeugen einen euklidischen Unterraum V ⊂ L 2 ( Ω ), dessen Dimension höchstens 2 beträgt. In diesem Unterraum | | X | | 2 2 = E ( X 2 ) ist die quadratische Länge von X und | | einX1V⊂L2(Ω)2||X||22=E(X2)X||a1||22=a2 is the squared length of the constant random variable ω→a. It is fundamental that X−μ1 is perpendicular to 1. (One definition of μ is that it's the unique number for which this is the case.) Relation (1) may be written
||X−a1||22=||X−μ1||22+||(a−μ)1||22.
It indeed is precisely the Pythagorean Theorem, in essentially the same form known 2500 years ago. The object
X−a1=(X−μ1)−(a−μ)1
is the hypotenuse of a right triangle with legs
X−μ1 and
(a−μ)1.
If you would like mathematical analogies, then, you may use anything that can be expressed in terms of the hypotenuse of a right triangle in a Euclidean space. The hypotenuse will represent the "error" and the legs will represent the bias and the deviations from the mean.