Der Mittelwert minimiert den quadratischen Fehler (oder die L2-Norm, siehe hier oder hier ). Daher besteht die natürliche Wahl für die Varianz zur Messung des Abstands vom Mittelwert darin, den quadratischen Fehler zu verwenden (siehe hier, warum wir ihn quadrieren ). Andererseits minimiert der Median den absoluten Fehler (L1-Norm), dh es ist ein Wert, der sich in der "Mitte" Ihrer Daten befindet, sodass der absolute Abstand vom Median (sogenannte Median Absolute Deviation oder MAD) a zu sein scheint besseres Maß für den Grad der Variabilität um den Median. Sie können mehr über diese Beziehungen in diesem Thread lesen .
Kurz gesagt, die Varianz unterscheidet sich von MAD darin, wie sie den Mittelpunkt Ihrer Daten definieren, und dies beeinflusst die Art und Weise, wie wir die Variation von Datenpunkten um sie herum messen. Durch Quadrieren der Werte haben Ausreißer einen größeren Einfluss auf den Mittelpunkt (Mittelwert), während im Fall des Medians alle Punkte den gleichen Einfluss darauf haben, sodass der absolute Abstand angemessener erscheint.
Dies kann auch durch einfache Simulation gezeigt werden. Wenn Sie die quadratischen Abstände zwischen Mittelwert und Median vergleichen, ist der quadratische Gesamtabstand vom Mittelwert fast immer kleiner als vom Median. Andererseits ist der absolute Gesamtabstand vom Median kleiner als vom Mittelwert. Der R-Code für die Durchführung der Simulation ist unten angegeben.
sqtest <- function(x) sum((x-mean(x))^2) < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))
mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))
mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))
mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))
Im Fall der Verwendung eines Medians anstelle eines Mittelwerts bei der Schätzung einer solchen "Varianz" würde dies zu höheren Schätzungen führen als bei Verwendung eines Mittelwerts, wie dies traditionell durchgeführt wird.
Übrigens können die Beziehungen der L1- und L2-Normen auch im Bayes'schen Kontext wie in diesem Thread betrachtet werden .