In Abschnitt 1.7.2 der Ermittlung von Statistiken mithilfe von R von Andy Fields und einer Auflistung der Vorteile von Mittelwert und Median heißt es:
... ist der Mittelwert in verschiedenen Proben tendenziell stabil.
Dies, nachdem die vielen Tugenden des Medians erklärt wurden, z
... Der Median ist relativ unbeeinflusst von Extremwerten an beiden Enden der Verteilung ...
Angesichts der Tatsache, dass der Median relativ unbeeinflusst von Extremwerten ist, hätte ich angenommen, dass er über die Stichproben hinweg stabiler ist. Ich war also verwirrt über die Behauptung der Autoren. Um zu bestätigen, dass ich eine Simulation durchgeführt habe, habe ich 1 Million Zufallszahlen generiert und 100 Zahlen 1000-mal abgetastet und den Mittelwert und Median jeder Stichprobe berechnet und dann den SD dieser Stichprobenmittelwerte und Medianwerte berechnet.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Wie Sie sehen, sind die Mittelwerte enger verteilt als die Mediane.
In der angehängten Abbildung ist das rote Histogramm für Medianwerte - wie Sie sehen, ist es weniger groß und hat einen dickeren Schwanz, was auch die Behauptung des Autors bestätigt.
Das verblüfft mich allerdings! Wie kann der Medianwert, der stabiler ist, letztendlich mehr zwischen den Stichproben variieren? Es scheint paradox! Alle Einsichten wäre dankbar.
rnorm
mit rcauchy
.