Warum die Differenz quadrieren, anstatt den absoluten Wert in Standardabweichung zu nehmen?
Wir quadrieren die Differenz der x zum Mittelwert, weil der euklidische Abstand proportional zur Quadratwurzel der Freiheitsgrade (Anzahl der x in einem Populationsmaß) das beste Maß für die Streuung ist.
Entfernung berechnen
Wie weit ist es von Punkt 0 bis Punkt 5?
- 5−0=5 ,
- |0−5|=5 und
- 52−−√=5
Ok, das ist trivial, weil es eine einzige Dimension ist.
Wie ist die Entfernung für einen Punkt bei Punkt 0, 0 bis Punkt 3, 4?
Wenn wir nur eine Dimension gleichzeitig betreten können (wie in Stadtblöcken), addieren wir einfach die Zahlen. (Dies wird manchmal als Manhattan-Entfernung bezeichnet).
Aber was ist mit zwei Dimensionen auf einmal? Dann (nach dem Satz von Pythagoras, den wir alle in der High School gelernt haben) quadrieren wir den Abstand in jeder Dimension, summieren die Quadrate und ermitteln dann mit der Quadratwurzel den Abstand vom Ursprung zum Punkt.
32+42−−−−−−√=25−−√=5
Wie wäre es mit der Entfernung von einem Punkt bei 0, 0, 0 zu Punkt 1, 2, 2?
Das ist gerecht
12+22+22−−−−−−−−−−√=9–√=3
weil die Distanz für die ersten beiden x das Bein für die Berechnung der Gesamtdistanz mit dem letzten x bildet.
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
Wir können die Regel der Quadratur des Abstands jeder Dimension weiter ausdehnen. Dies verallgemeinert sich auf das, was wir einen euklidischen Abstand nennen, für orthogonale Messungen im hyperdimensionalen Raum wie folgt:
distance=∑i=1nx2i−−−−−√
und so ist die Summe der orthogonalen Quadrate die quadratische Entfernung:
distance2=∑i=1nx2i
Was macht eine Messung orthogonal (oder rechtwinklig) zu einer anderen? Voraussetzung ist, dass zwischen den beiden Messungen keine Beziehung besteht. Wir würden uns bemühen , dass diese Messungen unabhängig und individuell verteilt sind ( iid ).
Varianz
Erinnern Sie sich jetzt an die Formel für die Populationsvarianz (von der wir die Standardabweichung erhalten):
σ2=∑i=1n(xi−μ)2n
Wenn wir die Daten bereits durch Subtrahieren des Mittelwerts auf 0 zentriert haben, haben wir:
σ2=∑i=1n(xi)2n
Wir sehen also, dass die Varianz nur der quadratische Abstand geteilt durch die Anzahl der Freiheitsgrade ist (die Anzahl der Dimensionen, auf denen die Variablen variieren können). Dies ist auch der durchschnittliche Beitrag zum pro Messung. "Mean Squared Varianz" wäre auch ein geeigneter Begriff.distance2
Standardabweichung
Dann haben wir die Standardabweichung, die nur die Quadratwurzel der Varianz ist:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
Das ist äquivalent die Distanz , dividiert durch die Quadratwurzel der Freiheitsgrade:
σ=∑i=1n(xi)2−−−−−−−√n−−√
Mittlere absolute Abweichung
Die mittlere absolute Abweichung (Mean Absolute Deviation, MAD) ist ein Maß für die Streuung, bei der der Manhattan-Abstand oder die Summe der absoluten Werte der Differenzen vom Mittelwert verwendet wird.
MAD=∑i=1n|xi−μ|n
Unter der Annahme, dass die Daten zentriert sind (der subtrahierte Mittelwert), haben wir die Manhattan-Entfernung geteilt durch die Anzahl der Messungen:
MAD=∑i=1n|xi|n
Diskussion
- Die mittlere absolute Abweichung beträgt etwa das Achtfache ( tatsächlich2/π−−−√ ) der Größe der Standardabweichung für einen normalverteilten Datensatz.
- Unabhängig von der Verteilung ist die mittlere absolute Abweichung kleiner oder gleich der Standardabweichung. MAD versteht die Streuung eines Datensatzes mit Extremwerten relativ zur Standardabweichung.
- Die mittlere absolute Abweichung ist für Ausreißer robuster (dh Ausreißer haben weniger Einfluss auf die Statistik als auf die Standardabweichung).
- Geometrisch gesehen wäre die mittlere absolute Abweichung, wenn die Messungen nicht orthogonal zueinander sind (iid) - wenn sie beispielsweise positiv korreliert wären - eine bessere beschreibende Statistik als die Standardabweichung, die sich auf den euklidischen Abstand stützt (obwohl dies normalerweise als gut angesehen wird) ).
Diese Tabelle gibt die obigen Informationen in einer präziseren Weise wieder:
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
Bemerkungen:
Haben Sie eine Referenz für "Die mittlere absolute Abweichung beträgt etwa das 8-fache der Standardabweichung für einen normalverteilten Datensatz"? Die Simulationen zeigen, dass dies falsch ist.
Hier sind 10 Simulationen von einer Million Proben aus der Standardnormalverteilung:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
Fazit
Wir bevorzugen die quadratischen Differenzen bei der Berechnung eines Dispersionsmaßes, weil wir den euklidischen Abstand ausnutzen können, wodurch wir eine bessere diskriptive Statistik der Dispersion erhalten. Wenn es relativ extreme Werte gibt, wird dies in der Statistik durch die euklidische Distanz berücksichtigt, wohingegen die Manhattan-Distanz jeder Messung das gleiche Gewicht verleiht.