Es gibt viele Antworten auf diese Frage. Hier ist eine, die Sie wahrscheinlich nirgendwo sonst sehen werden. Deshalb werde ich sie hier aufnehmen, weil ich glaube, dass sie für das Thema relevant ist. Die Leute glauben oft, dass der Median für fast alles robust ist, weil er als robustes Maß für Ausreißer angesehen wird. Tatsächlich wird es auch als robust angesehen, bei verzerrten Verteilungen eine Tendenz zu erkennen. Diese beiden robusten Eigenschaften des Medians werden oft zusammen gelernt. Man könnte bemerken, dass zugrunde liegende verzerrte Verteilungen auch dazu neigen, kleine Stichproben zu erzeugen, die aussehen, als hätten sie Ausreißer, und es ist allgemein bekannt, dass man in solchen Situationen Mediane verwendet.
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(nur eine Demonstration, dass dies schief ist und die Grundform)
hist(rexg(1e4, 0, 1, 1))
Lassen Sie uns nun sehen, was passiert, wenn wir aus dieser Verteilung verschiedene Stichprobengrößen abtasten und den Median und den Mittelwert berechnen, um die Unterschiede zwischen ihnen zu ermitteln.
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
Wie aus dem obigen Diagramm ersichtlich ist, ist der Median (in Rot) für das n viel empfindlicher als der Mittelwert. Dies steht im Widerspruch zu konventionellen Erkenntnissen in Bezug auf die Verwendung von Medianen mit niedrigem ns, insbesondere wenn die Verteilung verzerrt sein könnte. Und es verstärkt den Punkt, dass der Mittelwert ein bekannter Wert ist, während der Median für andere Eigenschaften empfindlich ist, von denen eine n ist.
Diese Analyse ähnelt Miller, J. (1988). Eine Warnung zur mittleren Reaktionszeit. Journal of Experimental Psychology: Menschliche Wahrnehmung und Leistung , 14 (3): 539–543.
REVISION
Beim Nachdenken über das Versatzproblem bin ich zu dem Schluss gekommen, dass der Einfluss auf den Median möglicherweise darauf zurückzuführen ist, dass bei kleinen Stichproben die Wahrscheinlichkeit größer ist, dass der Median am Ende der Verteilung liegt Modus. Wenn man also nur eine Stichprobe mit einer Wahrscheinlichkeit von Ausreißern erstellt, treten möglicherweise dieselben Ergebnisse auf.
Also dachte ich über Situationen nach, in denen Ausreißer auftreten und Experimentatoren versuchen könnten, sie zu beseitigen.
Wenn Ausreißer konsistent auftreten, wie beispielsweise einer in jeder einzelnen Datenstichprobe, sind Mediane robust gegen die Auswirkung dieses Ausreißers, und die herkömmliche Geschichte über die Verwendung von Medianen ist gültig.
Aber so läuft es normalerweise nicht.
Man könnte in sehr wenigen Zellen eines Experiments einen Ausreißer finden und sich in diesem Fall für die Verwendung des Medians anstelle des Mittelwerts entscheiden. Auch hier ist der Median robuster, aber seine tatsächliche Auswirkung ist relativ gering, da es nur sehr wenige Ausreißer gibt. Dies wäre definitiv ein häufigerer Fall als der oben beschriebene, aber der Effekt der Verwendung eines Medians wäre wahrscheinlich so gering, dass es nicht viel ausmachen würde.
Vielleicht sind Ausreißer häufiger eine zufällige Komponente der Daten. Beispielsweise kann der wahre Mittelwert und die Standardabweichung der Grundgesamtheit ungefähr 0 sein, aber es gibt einen Prozentsatz der Zeit, die wir von einer Ausreißergrundgesamtheit mit dem Mittelwert 3 abtasten. Betrachten Sie die folgende Simulation, bei der nur eine Grundgesamtheit abgetastet wird, wobei die Stichprobe variiert Größe.
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
Der Median ist rot und der Mittelwert schwarz. Dies ist ein ähnlicher Befund wie bei einer verzerrten Verteilung.
In einem relativ praktischen Beispiel für die Verwendung von Medianen, um die Auswirkungen von Ausreißern zu vermeiden, kann man Situationen finden, in denen die Schätzung durch n viel stärker beeinflusst wird, wenn der Median verwendet wird als wenn der Mittelwert verwendet wird.