Warum ist der Mittelwert in verschiedenen Stichproben stabiler als der Median?


22

In Abschnitt 1.7.2 der Ermittlung von Statistiken mithilfe von R von Andy Fields und einer Auflistung der Vorteile von Mittelwert und Median heißt es:

... ist der Mittelwert in verschiedenen Proben tendenziell stabil.

Dies, nachdem die vielen Tugenden des Medians erklärt wurden, z

... Der Median ist relativ unbeeinflusst von Extremwerten an beiden Enden der Verteilung ...

Angesichts der Tatsache, dass der Median relativ unbeeinflusst von Extremwerten ist, hätte ich angenommen, dass er über die Stichproben hinweg stabiler ist. Ich war also verwirrt über die Behauptung der Autoren. Um zu bestätigen, dass ich eine Simulation durchgeführt habe, habe ich 1 Million Zufallszahlen generiert und 100 Zahlen 1000-mal abgetastet und den Mittelwert und Median jeder Stichprobe berechnet und dann den SD dieser Stichprobenmittelwerte und Medianwerte berechnet.

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

Wie Sie sehen, sind die Mittelwerte enger verteilt als die Mediane.

Bildbeschreibung hier eingeben

In der angehängten Abbildung ist das rote Histogramm für Medianwerte - wie Sie sehen, ist es weniger groß und hat einen dickeren Schwanz, was auch die Behauptung des Autors bestätigt.

Das verblüfft mich allerdings! Wie kann der Medianwert, der stabiler ist, letztendlich mehr zwischen den Stichproben variieren? Es scheint paradox! Alle Einsichten wäre dankbar.


1
Ja, aber probieren Sie es aus, indem Sie eine Stichprobe aus nums <- rt (n = 10 ** 6, 1.1) ziehen. Diese t1.1-Verteilung ergibt eine Reihe von Extremwerten, die nicht unbedingt zwischen positiv und negativ ausgeglichen sind (ebenso gute Chancen, einen weiteren positiven Extremwert als negativen Extremwert auszugleichen), was eine gigantische Varianz in . Hiergegen schützt der Median. Es ist unwahrscheinlich, dass die Normalverteilung besonders extreme Werte angibt, um die -Verteilung über den Median hinaus zu strecken . ˉ xx¯x¯
Dave

10
Die Aussage des Autors ist im Allgemeinen nicht wahr. (Wir haben hier viele Fragen zu Fehlern in den Büchern dieses Autors erhalten, daher ist dies keine Überraschung.) Die Standardgegenbeispiele finden sich unter den "Stable - Distributionen" , bei denen der Mittelwert alles andere als "Stable" ist (in jedem vernünftigen Sinne) der Begriff) und der Median ist weitaus stabiler.
whuber

1
"... der Mittelwert ist in verschiedenen Proben tendenziell stabil." ist eine unsinnige Aussage. "Stabilität" ist nicht gut definiert. Der (Stichproben-) Mittelwert ist in der Tat in einer einzelnen Stichprobe ziemlich stabil, da es sich um eine nicht zufällige Größe handelt. Wenn die Daten "instabil" sind (stark variabel?), Ist der Mittelwert auch "instabil".
AdamO

1
Diese Frage wird wahrscheinlich durch die detaillierten Analysen beantwortet, die unter stats.stackexchange.com/questions/7307 angeboten werden , wobei die gleiche Frage auf spezifische Weise gestellt wird (wobei der Sinn von "stabil" genau definiert ist).
Whuber

2
Versuchen Sie ersetzen rnormmit rcauchy.
Eric Towers

Antworten:


3

Der Median ist maximal robust gegenüber Ausreißern, aber sehr anfällig für Rauschen. Wenn Sie für jeden Punkt eine geringe Menge an Rauschen eingeben, wird der Median ungedämpft eingegeben, solange das Rauschen so gering ist, dass die relative Reihenfolge der Punkte nicht geändert wird. Für den Mittelwert ist es umgekehrt. Das Rauschen wird gemittelt, aber ein einzelner Ausreißer kann den Mittelwert beliebig ändern.

Ihr Test misst hauptsächlich die Robustheit gegenüber Rauschen, aber Sie können leicht einen Test erstellen, bei dem der Median eine bessere Leistung erbringt. Wenn Sie einen Schätzer suchen, der sowohl gegen Ausreißer als auch gegen Rauschen robust ist, werfen Sie einfach das obere und untere Drittel weg und mitteln Sie den Rest.


Gibt es einen genaueren Namen für diesen Algorithmus als "der 33% -ige Mittelwert "?
David Cary

25

Wie @whuber und andere gesagt haben, ist die Aussage im Allgemeinen nicht wahr. Und wenn Sie bereit sind, intuitiver zu sein - ich kann mit den tiefen Mathematikfreaks hier nicht mithalten -, sehen Sie sich vielleicht andere Möglichkeiten an, wie Mittelwert und Median stabil sind oder nicht. Nehmen Sie für diese Beispiele eine ungerade Anzahl von Punkten an, damit ich meine Beschreibungen konsistent und einfach halten kann.

  1. Stellen Sie sich vor, Sie haben Punkte auf einer Zahlenlinie verteilt. Stellen Sie sich nun vor, Sie nehmen alle Punkte über der Mitte und verschieben sie auf das 10-fache ihrer Werte. Der Median ist unverändert, der Mittelwert deutlich verschoben. Der Median scheint also stabiler zu sein.

  2. Stellen Sie sich nun vor, diese Punkte sind ziemlich verteilt. Bewegen Sie den Mittelpunkt nach oben und unten. Bei einer Bewegung um eine Einheit wird der Median um eins geändert, der Mittelwert jedoch kaum. Der Median scheint jetzt weniger stabil und empfindlicher für kleine Bewegungen eines einzelnen Punktes zu sein.

  3. Stellen Sie sich nun vor, Sie nehmen den höchsten Punkt und bewegen ihn reibungslos vom höchsten zum niedrigsten Punkt. Der Mittelwert bewegt sich ebenfalls reibungslos. Der Median bewegt sich jedoch nicht kontinuierlich: Er bewegt sich erst dann, wenn Ihr höchster Punkt niedriger als der vorherige Median ist. Dann folgt er dem Punkt, bis er unter den nächsten Punkt fällt. Dann bleibt der Median bei diesem Punkt und tut es erneut Bewegen Sie sich nicht, während Sie Ihren Punkt weiter nach unten bewegen. [Bearbeitet pro Kommentar]

Unterschiedliche Transformationen Ihrer Punkte bewirken, dass entweder der Mittelwert oder der Median in gewissem Sinne weniger glatt oder stabil aussieht. Die Macher hier haben Ihnen Verteilungen gezeigt, aus denen Sie eine Stichprobe erstellen können, die besser zu Ihrem Experiment passt, aber hoffentlich hilft auch diese Intuition.


1
Zu Punkt 3: Würde sich der Median nicht auch reibungslos bewegen? Angenommen, die anfängliche Punktmenge ist [1, 3, 5, 7, 9]. Anfangs ist der Median 5. Dies bleibt der Median, bis der fünfte Punkt (anfangs 9) unterschritten 5wird. An diesem Punkt folgt der Median glatt dem fünften Punkt, wenn er abnimmt, bis er trifft 3. An diesem Punkt bleibt der Median bestehen 3. Obwohl der Punkt, der den Median definiert, "Springen" ist (vom dritten Punkt zum fünften Punkt zum zweiten Punkt), hat der tatsächliche Wert des Medians keinen Sprung / Diskontinuität.
Scott M

@ScottM Du scheinst recht zu haben. Ich bin mir nicht sicher, warum ich dachte, es würde springen. Ich werde umformulieren, wenn ich eine Chance bekomme.
Wayne

18

Angenommen, Sie haben Datenpunkte aus einer zugrunde liegenden kontinuierlichen Verteilung mit Mittelwert und Varianz . Sei die Dichtefunktion für diese Verteilung und sei ihr Median. Um dieses Ergebnis weiter zu vereinfachen, sei die entsprechende standardisierte Dichtefunktion, gegeben durch für alle . Die asymptotische Varianz des Stichprobenmittelwerts und des Stichprobenmedians ergibt sich aus:nμσ2<fmf~f~(z)=σf(μ+σz)zR

V(X¯n)=σ2nV(X~n)σ2n14f~(m-μσ)-2.

Wir haben also:

V(X¯n)V(X~n)4f~(m-μσ)2.

Wie Sie sehen, wird die relative Größe der Varianz von Stichprobenmittelwert und Stichprobenmedian (asymptotisch) durch den standardisierten Dichtewert beim wahren Median bestimmt. Somit haben wir für großes die asymptotische Entsprechung:n

V(X¯n)<V(X~n)ff~(m-μσ)<12.

Das heißt, für großes und asymptotisch gesprochen, ist die Varianz des Stichprobenmittelwerts genau dann niedriger als die Varianz des Stichprobenmedians, wenn die standardisierte Dichte beim standardisierten Medianwert kleiner als die Hälfte ist. Die Daten, die Sie in Ihrem Simulationsbeispiel verwendet haben, wurden aus einer Normalverteilung generiert. Sie haben also . Es ist daher nicht überraschend, dass Sie in diesem Beispiel eine höhere Varianz für den Stichprobenmedian gefunden haben.nf=1/2π=0,3989423<1/2


Genial! Vielen Dank.
Alok Lal

4

Anmerkung: Um Ihre Simulation zu wiederholen, verwenden Sie eine Verteilung, für die SDs von Mittelwerten und Medianen das entgegengesetzte Ergebnis haben:

Im Einzelnen handelt numses sich nun um eine Laplace-Verteilung (auch "doppelte Exponentialverteilung" genannt), die als Differenz zweier Exponentialverteilungen mit gleicher Rate (hier die Standardrate 1) simuliert werden kann. [Siehe vielleicht Wikipedia über Laplace-Distributionen.]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

Bildbeschreibung hier eingeben

Hinweis: Eine andere einfache Möglichkeit, die in @ whubers Link ausdrücklich erwähnt wird, ist Cauchy, die als Student-t-Verteilung mit einem Freiheitsgrad simuliert werden kann rt(10^6, 1). Die Schwänze sind jedoch so schwer, dass die Erstellung eines schönen Histogramms problematisch ist.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.