Mittlere und mittlere Eigenschaften


18

Kann mir jemand erklären, welche mathematische Logik zwei Aussagen (a) und (b) miteinander verbindet? Lassen Sie uns eine Reihe von Werten haben (einige Verteilung). Jetzt,

a) Der Median hängt nicht von jedem Wert ab [er hängt nur von einem oder zwei Mittelwerten ab]; b) Median ist der Ort der minimalen Summe der absoluten Abweichungen davon.

Und ebenso und im Gegensatz dazu

a) (arithmetisches) Mittel hängt von jedem Wert ab; b) Mittelwert ist der Ort minimaler Quadratabweichungen.

Mein Verständnis davon ist bisher intuitiv.


1
Es lohnt sich, eine ältere Version derselben Frage zu lesen : stats.stackexchange.com/questions/2547/… Und eine Beschreibung von Robust Statistics: en.wikipedia.org/wiki/Robust_statistics
bill_080

Was Sie also für das erste Paar suchen, ist ein Beweis dafür, dass der Median, wie er normalerweise als Mittelwert definiert wird (für eine ungerade Anzahl von Werten, um mit dem einfachsten Fall zu beginnen), auch der Wert ist, der die Summe minimiert von absoluten Abweichungen? Bevorzugen Sie einen Beweis, der Ihnen auch einen intuitiven Einblick gibt? Ich kenne selbst keinen Beweis, also scheint es eine gute Frage zu sein, und eine, auf die ich auch die Antwort wissen möchte.
Uhr

Du fühlst mich richtig. (a) und (b) sind meiner Meinung nach derzeit getrennte Aspekte / Eigenschaften für beide Statistiken; aber die Intuition legt nahe, dass die beiden Aspekte miteinander verbunden sind. Ich möchte wissen, wie sie miteinander verbunden sind, um alles genau zu verstehen.
TTNPHNS

Antworten:


19

Dies sind zwei Fragen: Zum einen, wie der Mittelwert und der Median die Verlustfunktionen minimieren , und zum anderen, wie sensibel diese Schätzungen für die Daten sind. Die beiden Fragen hängen zusammen, wie wir sehen werden.

Verlust minimieren

Eine Zusammenfassung (oder ein Schätzer) des Zentrums eines Stapels von Zahlen kann erstellt werden, indem der Zusammenfassungswert geändert wird und man sich vorstellt, dass jede Zahl im Stapel eine Rückstellkraft auf diesen Wert ausübt. Wenn die Kraft den Wert niemals von einer Zahl verdrängt, ist wohl jeder Punkt, an dem die Kräfte ausgeglichen sind, ein "Mittelpunkt" des Stapels.

Quadratischer ( ) VerlustL2

Wenn wir zum Beispiel eine klassische Feder ( gemäß dem Hookeschen Gesetz ) zwischen der Zusammenfassung und jeder Zahl anbringen würden, wäre die Kraft proportional zum Abstand zu jeder Feder. Die Federn würden die Zusammenfassung hin und her ziehen und sich schließlich an einem einzigartigen stabilen Ort mit minimaler Energie niederlassen.

Ich möchte auf einen kleinen Trick aufmerksam machen, der gerade stattgefunden hat: Die Energie ist proportional zur Summe der quadratischen Abstände. Die Newtonsche Mechanik lehrt uns, dass Kraft die Änderungsrate der Energie ist. Das Erreichen eines Gleichgewichts - das Minimieren der Energie - führt zum Ausgleich der Kräfte. Die Nettoveränderungsrate der Energie ist Null.

Nennen wir dies die " -Zusammenfassung" oder "Quadratverlustzusammenfassung".L2

Absoluter ( ) VerlustL1

Eine weitere Zusammenfassung kann erstellt werden, indem angenommen wird, dass die Größen der Rückstellkräfte unabhängig von den Abständen zwischen dem Wert und den Daten konstant sind . Die Kräfte selbst sind jedoch nicht konstant, da sie den Wert immer zu jedem Datenpunkt ziehen müssen. Wenn also der Wert kleiner als der Datenpunkt ist, ist die Kraft positiv gerichtet, aber wenn der Wert größer als der Datenpunkt ist, ist die Kraft negativ gerichtet. Jetzt ist die Energie proportional zu den Abständen zwischen dem Wert und den Daten. Es wird typischerweise einen gesamten Bereich geben, in dem die Energie konstant ist und die Nettokraft Null ist. Jeder Wert in dieser Region kann als " -Zusammenfassung" oder "Absolutverlustzusammenfassung" bezeichnet werden.L1

Diese physikalischen Analogien liefern nützliche Informationen zu den beiden Zusammenfassungen. Was passiert zum Beispiel mit der Zusammenfassung, wenn wir einen der Datenpunkte verschieben? Im Fall mit angebrachten Federn wird durch Verschieben eines Datenpunkts dessen Feder entweder gedehnt oder entspannt. Das Ergebnis ist eine Änderung der Gültigkeit der Zusammenfassung, sodass sich die Antwort ändern muss. Im L 1 -Fall hat eine Änderung eines Datenpunkts jedoch meistens keinen Einfluss auf die Zusammenfassung, da die Kraft lokal konstant ist. Die Kraft kann sich nur ändern, wenn sich der Datenpunkt über die Zusammenfassung bewegt.L2L1

(In der Tat sollte es offensichtlich sein, dass die Nettokraft auf einen Wert durch die Anzahl der Punkte gegeben ist, die größer sind als er - was ihn nach oben zieht - abzüglich der Anzahl der Punkte, die kleiner sind als er - was ihn nach unten zieht.) Die -Zusammenfassung muss an jeder Stelle erfolgen, an der die Anzahl der Datenwerte, die sie überschreiten, genau der Anzahl der Datenwerte entspricht, die kleiner sind als sie.)L1

Verluste abbilden

Da sich sowohl Kräfte als auch Energien addieren, können wir in beiden Fällen die Nettoenergie in einzelne Beiträge aus den Datenpunkten zerlegen. Durch die grafische Darstellung der Energie oder Kraft als Funktion des Summenwerts erhalten Sie ein detailliertes Bild dessen, was passiert. Die Zusammenfassung wird ein Ort sein, an dem die Energie (oder der "Verlust" im statistischen Sprachgebrauch) am geringsten ist. Entsprechend wird es ein Ort sein, an dem Kräfte sich ausgleichen: Die Mitte der Daten liegt dort, wo die Nettoverluständerung Null ist.

Diese Abbildung zeigt Energien und Kräfte für einen kleinen Datensatz mit sechs Werten (in jedem Diagramm durch schwache vertikale Linien gekennzeichnet). Die gestrichelten schwarzen Kurven sind die Summen der farbigen Kurven und zeigen die Beiträge der einzelnen Werte. Die x-Achse gibt mögliche Werte der Zusammenfassung an.

Abbildung 1

Das arithmetische Mittel ist ein Punkt, an dem der Quadratverlust minimiert wird: Es befindet sich am Scheitelpunkt (unten) der schwarzen Parabel im oberen linken Diagramm. Es ist immer einzigartig. Der Median ist ein Punkt, an dem der absolute Verlust minimiert wird. Wie oben erwähnt, muss es in der Mitte der Daten auftreten. Es ist nicht unbedingt einzigartig. Es befindet sich am unteren Rand der unterbrochenen schwarzen Kurve oben rechts. (Die Unterseite besteht eigentlich aus einem kurzen flachen Abschnitt zwischen und - 0,17 ; jeder Wert in diesem Intervall ist ein Median.)-0,23-0,17

Empfindlichkeit analysieren

Zuvor habe ich beschrieben, was mit der Zusammenfassung geschehen kann, wenn ein Datenpunkt geändert wird. Es ist aufschlussreich, darzustellen, wie sich die Zusammenfassung als Reaktion auf die Änderung eines einzelnen Datenpunkts ändert. (Diese Diagramme sind im Wesentlichen die empirischen Einflussfunktionen . Sie unterscheiden sich von der üblichen Definition darin, dass sie die tatsächlichen Werte der Schätzungen anzeigen, anstatt wie stark sich diese Werte ändern.) Der Wert der Zusammenfassung ist mit "Schätzung" auf dem y gekennzeichnet -axes erinnert uns daran, dass in dieser Zusammenfassung geschätzt wird, wo sich die Mitte des Datensatzes befindet. Die neuen (geänderten) Werte jedes Datenpunkts werden auf ihrer x-Achse angezeigt.

Figur 2

Diese Abbildung zeigt die Ergebnisse der Variation der einzelnen Datenwerte im Stapel (der gleiche Wert wie in der ersten Abbildung). Für jeden Datenwert gibt es ein Diagramm, das auf seinem Diagramm mit einem langen schwarzen Häkchen entlang der unteren Achse hervorgehoben ist. (Die verbleibenden Datenwerte werden mit kurzen grauen Häkchen angezeigt.) Die blaue Kurve zeigt die L 2 -Zusammenfassung - das arithmetische Mittel - und die rote Kurve zeigt die L 1-1,02,-0,82,-0,23,-0,17,-0,08,0,77L2L1Zusammenfassung - der Median. (Da der Median oft ein Bereich von Werten ist, wird hier die Konvention des Zeichnens der Mitte dieses Bereichs befolgt.)

Beachten:

  1. Die Empfindlichkeit des Mittelwerts ist unbegrenzt: Diese blauen Linien erstrecken sich unendlich weit nach oben und unten. Die Empfindlichkeit des Medians ist begrenzt: Es gibt obere und untere Grenzen für die roten Kurven.

  2. Wenn sich der Median ändert, ändert er sich jedoch viel schneller als der Mittelwert. Die Steigung jeder blauen Linie ist ( in der Regel ist es 1 / n für einen Datensatz mit n - Werten), wobei die Steigungen der geneigten Teile der roten Linien sind alle 1 / 2 .1/61/nn1/2

  3. Der Mittelwert ist für jeden Datenpunkt empfindlich und diese Empfindlichkeit hat keine Grenzen (wie die Steigungen ungleich Null aller farbigen Linien in der linken unteren Darstellung der ersten Abbildung zeigen). Obwohl der Median für jeden Datenpunkt empfindlich ist, ist die Empfindlichkeit begrenzt (weshalb sich die farbigen Kurven im unteren rechten Diagramm der ersten Figur in einem engen vertikalen Bereich um Null befinden). Dies sind natürlich nur visuelle Wiederholungen des (Verlust-) Grundgesetzes: quadratisch für den Mittelwert, linear für den Median.

  4. Das Intervall, in dem der Median geändert werden kann, kann zwischen den Datenpunkten variieren. Es wird immer durch zwei der Nahmittelwerte unter den Daten begrenzt, die sich nicht ändern . (Diese Grenzen sind durch schwache vertikale gestrichelte Linien gekennzeichnet.)

  5. Da die Änderungsrate des Median immer , die Höhe , durch die es daher variieren könnte , wird durch die Länge dieses Spalts zwischen nahen Mittelwerte des Datensatzes bestimmt.1/2

Obwohl üblicherweise nur der erste Punkt notiert wird, sind alle vier Punkte wichtig. Bestimmtes,

  • Es ist definitiv falsch, dass der "Median nicht von jedem Wert abhängt". Diese Abbildung zeigt ein Gegenbeispiel.

  • Dennoch ist der Median nicht hängen „wesentlich“ auf jedem Wert in dem Sinne , dass obwohl einzelne Werte ändern kann den Median ändern, wird die Größe der Änderung durch die Lücken zwischen nahen mittleren Werten im Datensatz begrenzt ist. Insbesondere ist das Ausmaß der Veränderung begrenzt . Wir sagen, dass der Median eine "resistente" Zusammenfassung ist.

  • Obwohl der Mittelwert nicht resistent ist und sich bei jeder Änderung eines Datenwerts ändert, ist die Änderungsrate relativ gering. Je größer der Datensatz ist, desto geringer ist die Änderungsrate. Um eine wesentliche Änderung im Mittelwert eines großen Datensatzes zu erzeugen, muss mindestens ein Wert einer relativ großen Änderung unterzogen werden. Dies deutet darauf hin, dass die Nichtbeständigkeit des Mittelwerts nur für (a) kleine Datensätze oder (b) Datensätze von Bedeutung ist, bei denen ein oder mehrere Daten Werte aufweisen können, die extrem weit von der Mitte der Charge entfernt sind.

Diese Bemerkungen - von denen ich hoffe, dass sie aus den Zahlen hervorgehen - lassen einen tiefen Zusammenhang zwischen der Verlustfunktion und der Empfindlichkeit (oder dem Widerstand) des Schätzers erkennen. Beginnen Sie dazu mit einem der Wikipedia-Artikel zu M-Estimators und verfolgen Sie diese Ideen nach Belieben.


Code

Dieser RCode erzeugte die Zahlen und kann leicht modifiziert werden, um jeden anderen Datensatz auf die gleiche Weise zu untersuchen: Ersetzen Sie einfach den zufällig erzeugten Vektor ydurch einen beliebigen Vektor von Zahlen.

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

3
Ich biete ein Kopfgeld an, weil die Antwort neben der Qualität einen gewissen, ruhigen Stil hat.
TTNPHNS

Vielen Dank! Ihre Wertschätzung dieses Beitrags ist äußerst erfreulich.
Whuber

11

x1,x2,,xnnyf(y)yxif(y)=|x1y|+|x2y|++|xny|yf(y)lxiyr=nlyyyf(y)

Δyyxiy|xiy|Δyy|xiy|ΔyΔyyf(y)lΔyrΔy=(lr)Δyf(y)xiyyf(y)lr=0xiyyxi

f(y)f(y)=(x1-y)2++(xn-y)2f(y)yxichy

f(y)


1
xich

danke für die elegante erklärung. Es klingt für mich jedoch so: "Die Zahl y, deren kleine Änderung die Funktion Sum | x_i-y | nicht ändert, hängt nicht von jedem x_i ab und heißt Median". Es ist eine interessante Anmerkung zum Median von geraden n Daten. Aber ich wollte dies beweisen: "Die Zahl y, die die Funktion Summe | x_i-y | minimiert, hängt nicht von jedem x_i ab und heißt Median". Und ähnlich: "Die Zahl y, die die Funktion Summe (x_i-y) ^ 2 minimiert, hängt gleichermaßen von jedem x_i ab und wird Mittelwert genannt".
TTNPHNS

1
Wie soll ich beweisen, dass der 'heißt Median'-Teil? Das ist verrückt.
Shabbychef

Es ist ein Problem. Dieser Teil ist nicht zu beweisen, ich habe gehofft, Sie verstehen.
TTNPHNS

1
Gibt es ein ähnliches Ergebnis für den Median der absoluten Abweichungen anstelle der Summe der absoluten Abweichungen? Weil die absolute Abweichung vom Median auch ein interessantes Maß für die Streuung ist.
Samthebest

3
  • x(n)2x(n)
  • aR

i=1n|ximedian|i=1n|xia|

und

i=1n(ximean)2i=1n(xia)2


Nun, als erfahrener Statistiker ohne fundamentale Mathematikausbildung weiß ich immer noch viel über mittlere und mittlere Unterschiede und Anwendungen. Was ich hier brauche, ist jemand, der - logisch oder mathematisch - entweder (a) von (b) oder (b) von (a) für mich zeichnet. Ich habe das Gefühl, dass ich mich selbst nicht rational mit (a) in Einklang bringen kann. Marco, ich finde es sehr schwierig, deine Notation zu verstehen. Wenn Ihre Formel der Abzug ist, den ich brauche, können Sie die Idee bitte weniger technisch für mich "durchkauen"?
TTNPHNS

PS Solange deine beiden Ungleichungen endlich richtig auf meinem Bildschirm angezeigt wurden, sehe ich, dass es nur meine (b) Aussagen sind. Sie schreiben, "es kann gezeigt werden, dass ...". Also zeig mir das. Ich brauche eine Art mathematischen Beweis, der für Datenanalytiker, die kein professioneller Mathematiker sind, verständlich ist.
TTNPHNS

2
@ttnphns: Ihre Anfrage nach einer mathematischen anstatt einer intuitiven Antwort scheint mit Ihrer Anfrage nach etwas weniger Technischem als dem, was die Leute angeboten haben, unvereinbar zu sein.
Rolando2

Können wir die Situation auf zwei oder drei Punkte vereinfachen und uns fragen, ob der Median in der obigen nicht strengen Ungleichung mit doppelter Summierung einen eindeutigen Wert hat? Mit zwei Punkten scheint es jeden Punkt zwischen dem 2.
DWin

2

Hey hier ist ein Beitrag, nachdem ich ein bisschen darüber gelesen habe. Wahrscheinlich ein bisschen zu spät für die Person, die gefragt hat, aber vielleicht wert für jemand anderen.

Für den Mittelfall:

argminxi=1n(yix)

f(x)=i=1n(yix)2

f(x)=02i=1n(yix)=0

f(x)=0i=1nyi=i=1nx

f(x)=0x=i=1nn

Da die Funktion konvex ist, ist dies ein Minimum

Für den Medianfall

argminxi=1n|yix|

f(x)=i=1n|yix|

f(x)=0i=1nsgn(yix)=0

sgn(x)sgn(x)=1x>0sgn(x)=1x<0

f(x)=0#{yi/yi>x}#{yi/yi<x}=0

# ist der Kardinal des Raumes, also in diesem diskreten Fall die Anzahl der Elemente in ihm)

f(x)=0x

Da die Funktion auch konvex ist, ist dies wieder ein Minimum.


Vielen Dank. Es kann für mich und andere hilfreich sein. Können Sie einige Kommentare in Worten für die wichtigsten Ausdrücke hinzufügen - für jemanden, der Formeln nicht ganz fließend versteht? Insbesondere Ihre letzte Zeile - was bedeutet das und was ist das #?
TTNPHNS

Ist es jetzt klar? Ich habe die zwei weniger üblichen Funktionen definiert
Anthony Martin
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.