Warum die Differenz quadrieren, anstatt den absoluten Wert in Standardabweichung zu nehmen?


408

Bei der Definition der Standardabweichung, warum müssen wir Quadrat der Differenz aus dem Mittelwert der Mittelwert (E) und nehmen Sie die bekommen Quadratwurzel zurück am Ende? Können wir nicht stattdessen einfach den absoluten Wert der Differenz nehmen und den erwarteten Wert (Mittelwert) von diesen erhalten, und würde das nicht auch die Variation der Daten zeigen? Die Zahl wird sich von der Quadratmethode unterscheiden (die Absolutwertmethode wird kleiner sein), aber sie sollte immer noch die Datenverteilung anzeigen. Weiß jemand, warum wir diesen quadratischen Ansatz als Standard verwenden?

Die Definition der Standardabweichung:

σ=E[(Xμ)2].

Können wir nicht stattdessen einfach den absoluten Wert nehmen und trotzdem ein gutes Maß sein?

σ=E[|Xμ|]


25
In gewisser Weise wird die von Ihnen vorgeschlagene Messung häufig bei der Fehleranalyse (Modellqualitätsanalyse) verwendet. Dann wird sie als MAE (Mean Absolute Error) bezeichnet.

8
Bei der Annahme einer Antwort erscheint mir wichtig, dass wir darauf achten, ob die Antwort zirkulär ist. Die Normalverteilung basiert auf diesen Messungen der Varianz von Quadratfehlertermen, aber das ist an sich keine Rechtfertigung für die Verwendung von (XM) ^ 2 über | XM |.
Russellpierce

2
Denken Sie, dass der Begriff Standard bedeutet, dass dies heute DER Standard ist? Ist es nicht so, als würde man fragen, warum die Hauptkomponente "Haupt" und nicht sekundär ist?
Robin Girard

51
Jede bisher angebotene Antwort ist zirkulär. Sie konzentrieren sich auf einfache mathematische Berechnungen (was nett, aber keineswegs grundlegend ist) oder auf Eigenschaften der Gaußschen (Normal-) Verteilung und der OLS. Um 1800 begann Gauß mit den kleinsten Quadraten und der geringsten Varianz, und aus diesen ergab sich die Normalverteilung - da ist die Zirkularität. Ein wirklich grundlegender Grund, der in keiner Antwort angesprochen wurde, ist die einzigartige Rolle, die die Varianz im zentralen Grenzwertsatz spielt . Ein anderes ist die Wichtigkeit der Minimierung des quadratischen Verlusts in der Entscheidungstheorie.
Whuber

2
Taleb macht den Fall bei Edge.org für das Zurückziehen der Standardabweichung und die Verwendung der mittleren absoluten Abweichung.
Alex Holcombe

Antworten:


188

Wenn das Ziel der Standardabweichung darin besteht, die Streuung eines symmetrischen Datensatzes zusammenzufassen (dh im Allgemeinen, wie weit die einzelnen Daten vom Mittelwert entfernt sind), benötigen wir eine gute Methode, um zu definieren, wie diese Streuung gemessen werden soll.

Die Vorteile des Quadrierens umfassen:

  • Das Quadrieren ergibt immer einen positiven Wert, sodass die Summe nicht Null ist.
  • Beim Quadrieren werden größere Unterschiede hervorgehoben - eine Funktion, die sich als gut und schlecht herausstellt (denken Sie an den Effekt, den Ausreißer haben).

Die Quadratur hat jedoch ein Problem als Maß für die Streuung und das heißt, dass die Einheiten alle quadriert sind, wohingegen wir es vorziehen könnten, dass die Streuung in den gleichen Einheiten wie die ursprünglichen Daten erfolgt (man denke an quadratische Pfund, quadratische Dollar oder quadratische Äpfel). . Daher erlaubt uns die Quadratwurzel, zu den ursprünglichen Einheiten zurückzukehren.

Ich nehme an, Sie könnten sagen, dass die absolute Differenz der Verbreitung von Daten das gleiche Gewicht beimisst, während das Quadrieren die Extreme betont. Technisch gesehen erleichtert das Quadrieren die Arbeit mit der Algebra jedoch erheblich und bietet Eigenschaften, die mit der absoluten Methode nicht möglich sind (z. B. ist die Varianz gleich dem erwarteten Wert des Verteilungsquadrats abzüglich des Quadrats der Mittelwert der Verteilung)

Es ist jedoch wichtig zu beachten, dass es keinen Grund gibt, den absoluten Unterschied nicht zu akzeptieren, wenn dies Ihre Präferenz dafür ist, wie Sie "Spread" betrachten möchten (so wie manche Leute 5% als eine magische Schwelle fürWerte sehen, wenn es tatsächlich situationsabhängig ist). Tatsächlich gibt es mehrere konkurrierende Methoden zur Messung der Ausbreitung.p

Meine Ansicht ist , die quadrierten Werte zu verwenden , weil Ich mag denken , wie sie sich auf den Satz des Pythagoras von Statistik: ... das hilft mir auch daran erinnern , dass , wenn sie mit unabhängigen Zufallsvariablen arbeiten , Varianzen hinzufügen, Standardabweichungen nicht. Aber das ist nur meine persönliche subjektive Präferenz, die ich meistens nur als Erinnerungshilfe benutze. Sie können diesen Absatz ignorieren.c=a2+b2

Eine ausführlichere Analyse finden Sie hier .


72
"Quadrieren ergibt immer einen positiven Wert, daher ist die Summe nicht Null." Absolutwerte auch.
Robin Girard

32
@robin girard: Das ist richtig, weshalb ich diesem Punkt "Die Vorteile des Quadrierens umfassen" vorangestellt habe. Ich habe in dieser Aussage nichts über absolute Werte angedeutet. Ich nehme Ihren Standpunkt jedoch zur Kenntnis und überlege, ob ich ihn entfernen / umformulieren soll, wenn andere meinen, dass er unklar ist.
Tony Breyal

15
Ein großer Teil des Bereichs robuster Statistiken ist der Versuch, mit der übermäßigen Empfindlichkeit gegenüber Ausreißern umzugehen, die sich aus der Wahl der Varianz als Maß für die Datenverteilung (technisch skaliert oder verteilt) ergibt. en.wikipedia.org/wiki/Robust_statistics
Thylacoleo

5
Der Artikel, auf den in der Antwort verwiesen wird, ist von Gott gesandt.
traggatmot

1
Ich denke, der Absatz über Pythagoras ist genau richtig. Sie können sich den Fehler als einen Vektor in Dimensionen vorstellen, wobei die Anzahl der Abtastwerte ist. Die Größe in jeder Dimension ist der Unterschied zum Mittelwert für diese Stichprobe. Die Länge dieses Vektors (Pythagoras) ist die Wurzel der summierten Quadrate, dh die Standardabweichung. n [ ( x 1 - μ ) , ( x 2 - μ ) , ( x 3 - μ ) , . . . ]nn[(x1μ),(x2μ),(x3μ),...]
Arne Brasseur

138

Die quadratische Differenz hat bessere mathematische Eigenschaften. Es ist kontinuierlich differenzierbar (schön, wenn Sie es minimieren möchten), es ist eine ausreichende Statistik für die Gaußsche Verteilung und es ist (eine Version von) der L2-Norm, die sich als nützlich erweist, um die Konvergenz zu beweisen und so weiter.

Die mittlere absolute Abweichung (die von Ihnen vorgeschlagene Absolutwertnotation) wird ebenfalls als Maß für die Streuung verwendet, ist jedoch nicht so "gutmütig" wie der quadratische Fehler.


2
sagte "es ist kontinuierlich differenzierbar (schön, wenn Sie es minimieren wollen)" meinst du, dass der absolute Wert schwer zu optimieren ist?
Robin Girard

29
@robin: Während die Absolutwertfunktion überall stetig ist, ist ihre erste Ableitung nicht stetig (bei x = 0). Dies erschwert die analytische Optimierung.
Vince

12
Ja, aber das Auffinden der gewünschten tatsächlichen Zahl und nicht nur eines Deskriptors ist bei quadratischem Fehlerverlust einfacher. Betrachten Sie den 1-dimensionalen Fall. Sie können den Minimierer des quadratischen Fehlers durch den Mittelwert ausdrücken: O (n) -Operationen und geschlossene Form. Sie können den Wert des absoluten Fehlerminimierers durch den Median ausdrücken, es gibt jedoch keine geschlossene Lösung, die Ihnen den Medianwert angibt. Es erfordert eine Art zu finden, die so etwas wie O (n log n) ist. Lösungen für kleinste Fehlerquadrate sind in der Regel eine einfache Plug-and-Chug-Operation. Absolutwertlösungen erfordern in der Regel mehr Arbeit, um sie zu finden.
Rich

5
@Rich: Sowohl die Varianz als auch der Median sind in linearer Zeit zu finden und natürlich nicht schneller. Median erfordert keine Sortierung.
Neil G


84

Man kann sich das so vorstellen, dass die Standardabweichung einem "Abstand vom Mittelwert" ähnelt.

Vergleichen Sie dies mit Entfernungen im euklidischen Raum - dies gibt Ihnen die wahre Entfernung, bei der das, was Sie vorgeschlagen haben (was übrigens die absolute Abweichung ist ), eher einer Manhattan-Entfernungsberechnung ähnelt .


17
Schöne Analogie zum euklidischen Raum!
c4il

2
Nur dass in einer Dimension die und l 2 -Norm dasselbe sind, nicht wahr? l1l2
Naught101

5
@ naught101: Es handelt sich nicht um eine Dimension, sondern um Dimensionen, wobei n die Anzahl der Stichproben ist. Die Standardabweichung und die absolute Abweichung sind (skalierte) l 2 - bzw. l 1 -Distanzen zwischen den beiden Punkten ( x 1 , x 2 , , x n ) und ( μ , μ , , μ ), wobei μ der Mittelwert ist . nnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ShreevatsaR

1
Dies sollte als Mindestabstand vom Mittelwert geändert werden. Es ist im Wesentlichen eine pythagoräische Gleichung.
John

56

Der Grund , warum wir die Standardabweichung anstelle des absoluten Fehlers berechnen, ist, dass wir annehmen, dass der Fehler normal verteilt ist . Es ist ein Teil des Modells.

Angenommen, Sie haben sehr kleine Längen mit einem Lineal gemessen, dann ist die Standardabweichung eine schlechte Metrik für Fehler, da Sie wissen, dass Sie niemals versehentlich eine negative Länge messen werden. Eine bessere Metrik wäre eine, mit deren Hilfe Sie eine Gamma-Verteilung an Ihre Messungen anpassen können:

log(E(x))E(log(x))

Wie die Standardabweichung ist auch diese nicht negativ und differenzierbar, sie ist jedoch eine bessere Fehlerstatistik für dieses Problem.


3
Ich mag deine Antwort. Der SD ist nicht immer die beste Statistik.
RockScience

2
Tolles Gegenbeispiel, wenn die Standardabweichung nicht die beste Art ist, sich Fluktuationsgrößen vorzustellen.
Hbar

Sollten Sie nicht haben ein umgekehrtes Vorzeichen auf die Menge eine positive Maßnahme zu erhalten - eine konvexe mit anstelle von konkaven log x ? logxlogx
AS

@AS Nein, es ist schon immer positiv. Es ist Null, wenn alle Abtastwerte gleich sind, und ansonsten misst seine Größe die Variation. x
Neil G

Du liegst falsch. für konkaves g . E(g(X))g(E(X))g
AS

25

Die Antwort, die mich am besten befriedigt hat, ist, dass sie auf natürliche Weise aus der Verallgemeinerung einer Stichprobe in den n-dimensionalen euklidischen Raum herausfällt. Es ist sicherlich fraglich, ob dies getan werden sollte, aber auf jeden Fall:

nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

Mit diesem Ansatz erhalten Sie auch eine geometrische Interpretation für die Korrelation .ρ^=cos(x~,y~)


7
Das ist richtig und ansprechend. Letztendlich scheint es jedoch nur so, als würde die Frage umformuliert, ohne sie tatsächlich zu beantworten: Warum sollten wir den euklidischen Abstand (L2) verwenden?
whuber

20
@sesqu Standardabweichungen wurden nicht alltäglich, bis Gauß 1809 seine gleichnamige Abweichung unter Verwendung eines quadratischen Fehlers anstelle eines absoluten Fehlers als Ausgangspunkt herleitete. Was sie jedoch übertrieben hat (glaube ich), war Galtons Regressionstheorie (auf die Sie hinweisen) und die Fähigkeit von ANOVA, Quadratsummen zu zerlegen - was einer Neuformulierung des Pythagoreischen Theorems gleichkommt, einer Beziehung, die nur von der L2-Norm. So wurde der SD zu einem natürlichen Sammelverbreitungsmaß, für das Fisher 1925 in "Statistical Methods for Research Workers" plädierte, und hier sind wir 85 Jahre später.
Whuber

13
(+1) Ich würde wetten, dass Student 1908 einen Artikel mit dem Titel "Probable Error of the Mean - Hey, Guys, check out that MAE in the Denominator!" Veröffentlicht hat. dann hätte die Statistik inzwischen ein ganz anderes Gesicht. Natürlich hat er eine solche Veröffentlichung nicht veröffentlicht, und das konnte er natürlich nicht, weil die MAE nicht alle netten Eigenschaften aufweist, die S ^ 2 hat. Eine davon (bezogen auf Student) ist die Unabhängigkeit vom Mittelwert (im Normalfall), was natürlich eine Anpassung der Orthogonalität ist, die uns direkt zu L2 und dem inneren Produkt zurückführt.

3
Diese Antwort hat zum Nachdenken angeregt, und ich glaube, meine bevorzugte Betrachtungsweise. In 1-D ist es schwer zu verstehen, warum das Quadrieren des Unterschieds als besser angesehen wird. In mehreren Dimensionen (oder sogar nur 2) kann man jedoch leicht erkennen, dass der euklidische Abstand (Quadratur) dem Manhattan-Abstand (Summe der absoluten Werte der Differenzen) vorzuziehen ist.
thecity2

1
@whuber Kannst du bitte erklären, was "die durch Xᵢ = μ definierte Linie" bedeutet? Ist es die Linie, die durch den Ursprung und den Punkt verläuft (μ, μ, ..., μ)? Wo kann ich mehr darüber lesen?
Arch Stanton

18

Die Differenz zum Mittelwert zu quadrieren hat mehrere Gründe.

  • Varianz ist definiert als das 2. Moment der Abweichung (das RV ist hier ) und somit ist das Quadrat als Moment einfach die Erwartung höherer Potenzen der Zufallsvariablen.(xμ)

  • Ein Quadrat im Gegensatz zur Absolutwertfunktion ergibt eine schöne stetige und differenzierbare Funktion (Absolutwert ist bei 0 nicht differenzierbar) - was sie zur natürlichen Wahl macht, insbesondere im Zusammenhang mit der Schätzung und der Regressionsanalyse.

  • Die quadratische Formulierung fällt natürlich auch aus den Parametern der Normalverteilung heraus.


17

Ein weiterer Grund (zusätzlich zu den hervorragenden oben) stammt von Fisher selbst, der zeigte, dass die Standardabweichung "effizienter" ist als die absolute Abweichung. Effizient hängt hier davon ab, wie stark eine Statistik bei verschiedenen Stichproben aus einer Population im Wert schwankt. Wenn Ihre Grundgesamtheit normal verteilt ist, führt die Standardabweichung verschiedener Stichproben dieser Grundgesamtheit im Durchschnitt zu Werten, die einander ziemlich ähnlich sind, wohingegen die absolute Abweichung zu Zahlen führt, die sich etwas stärker ausbreiten. Dies ist natürlich unter idealen Umständen der Fall, aber dieser Grund hat viele Menschen überzeugt (und auch die Mathematik ist sauberer), sodass die meisten Menschen mit Standardabweichungen arbeiteten.


6
Ihr Argument hängt von den Daten ab, die normal verteilt werden. Wenn wir davon ausgehen, dass die Population eine "doppelt exponentielle" Verteilung hat, ist die absolute Abweichung effizienter (tatsächlich ist sie eine ausreichende Statistik für die Skala)
Wahrscheinlichkeitsanalyse

7
Ja, wie gesagt, "wenn Ihre Bevölkerung normal verteilt ist".
Eric Suh

Neben der Annahme einer Normalverteilung geht Fisher Proof von fehlerfreien Messungen aus. Mit kleinen Fehlern wie 1%
kehrt sich

14

Nur damit die Leute Bescheid wissen, gibt es eine Math Overflow-Frage zum selben Thema.

Warum-ist-es-so-cool-auf-quadratische-Zahlen-bezogen-auf-das-Finden-der-Standardabweichung?

Die Nachricht zum Mitnehmen ist, dass die Verwendung der Quadratwurzel der Varianz zu einfacheren Berechnungen führt. Eine ähnliche Antwort wird oben von Rich und Reed gegeben.


3
'Einfachere Mathematik' ist keine wesentliche Voraussetzung, wenn unsere Formeln und Werte einen bestimmten Datensatz besser widerspiegeln sollen. Computer machen sowieso die ganze harte Arbeit.
Dan W

Die Definition von pi als 3.14 macht Mathe einfacher, aber das macht es nicht richtig.
James

13

Varianzen sind additiv: Für unabhängige Zufallsvariablen , var ( X 1 + + X n ) = var ( X 1 ) + + var ( X n ) .X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

Beachten Sie, was dies ermöglicht: Sagen wir, ich werfe 900 Mal eine faire Münze. Wie hoch ist die Wahrscheinlichkeit, dass die Anzahl der Köpfe zwischen 440 und 455 liegt? Bestimmen Sie einfach die erwartete Anzahl der Köpfe ( ) und die Varianz der Anzahl der Köpfe ( ) und bestimmen Sie dann die Wahrscheinlichkeit mit einer Normalverteilung (oder Gaußschen Verteilung) mit der Erwartung und einer Standardabweichung zwischen und . Abraham de Moivre hat dies im 18. Jahrhundert mit Münzwürfen getan und damit erstmals gezeigt, dass die glockenförmige Kurve etwas wert ist.225 = 15 2 450 15 439,5 455,5450225=15245015439.5455.5


Sind mittlere absolute Abweichungen nicht additiv wie Abweichungen?
Russellpierce

6
Nein, sind sie nicht.
Michael Hardy

10

Ich denke, der Kontrast zwischen der Verwendung von absoluten Abweichungen und quadratischen Abweichungen wird deutlicher, wenn Sie über eine einzelne Variable hinausgehen und über lineare Regression nachdenken. Es gibt eine nette Diskussion unter http://en.wikipedia.org/wiki/Least_absolute_deviations , insbesondere im Abschnitt "Kontrastieren der kleinsten Quadrate mit den kleinsten absoluten Abweichungen", der auf einige Schülerübungen mit einer übersichtlichen Reihe von Applets unter http: // www verweist .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .

Zusammenfassend lässt sich sagen, dass kleinste absolute Abweichungen für Ausreißer robuster sind als gewöhnliche kleinste Quadrate, dass sie jedoch instabil sein können (eine kleine Änderung auch nur eines einzelnen Datums kann eine große Änderung der angepassten Linie bewirken) und nicht immer eine eindeutige Lösung bieten eine ganze Reihe von eingepassten Linien. Auch kleinste absolute Abweichungen erfordern iterative Methoden, während gewöhnliche kleinste Quadrate eine einfache Lösung in geschlossener Form bieten, obwohl dies heute keine so große Sache ist wie zu Zeiten von Gauß und Legendre.


Das Argument "Eindeutige Lösung" ist ziemlich schwach. Es bedeutet, dass die Daten mehr als einen Wert unterstützen. Zusätzlich wird durch Bestrafung der Koeffizienten, wie z. B. L2, das Eindeutigkeitsproblem und das Stabilitätsproblem bis zu einem gewissen Grad gelöst.
Wahrscheinlichkeitslogik

10

Es gibt viele Gründe; wahrscheinlich ist die Hauptsache, dass es als Parameter der Normalverteilung gut funktioniert.


4
Genau. Die Standardabweichung ist der richtige Weg, um die Streuung zu messen, wenn Sie von einer Normalverteilung ausgehen. Und viele Verteilungen und reale Daten sind ungefähr normal.
Łukasz Lew

2
Ich denke nicht, dass Sie "natürliche Parameter" sagen sollten: Die natürlichen Parameter der Normalverteilung sind Mittelwert und mittlere Genauigkeit. ( en.wikipedia.org/wiki/Natural_parameter )
Neil G

1
@ NeilG Guter Punkt; Ich dachte über die "beiläufige" Bedeutung hier nach. Ich werde über ein besseres Wort nachdenken.

8

In vielerlei Hinsicht führt die Verwendung der Standardabweichung zur Zusammenfassung der Streuung zu einer Schlussfolgerung. Man könnte sagen, dass SD implizit eine symmetrische Verteilung annimmt, weil der Abstand unterhalb des Mittelwerts als der Abstand oberhalb des Mittelwerts gleich behandelt wird. Der SD ist für Nicht-Statistiker überraschend schwer zu interpretieren. Man könnte argumentieren, dass Ginis mittlerer Unterschied eine breitere Anwendung hat und bedeutend deutlicher zu interpretieren ist. Es ist nicht erforderlich, die Wahl eines Maßes für die zentrale Tendenz anzugeben, wie dies bei der Verwendung von SD für den Mittelwert der Fall ist. Ginis mittlere Differenz ist die durchschnittliche absolute Differenz zwischen zwei verschiedenen Beobachtungen. Abgesehen davon, dass es robust und leicht zu interpretieren ist, ist es 0,98 so effizient wie SD, wenn die Verteilung tatsächlich Gauß ist.


2
Um @ Franks Vorschlag zu Gini zu ergänzen, gibt es hier ein schönes Papier: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 Es geht über verschiedene Maße der Streuung und gibt auch eine informative historische Perspektive.
Thomas Speidel

1
Ich mag diese Ideen auch, aber es gibt eine weniger bekannte parallele Definition der Varianz (und damit der SD), die auf Mittel als Standortparameter keinen Bezug nimmt. Die Varianz ist die Hälfte des mittleren Quadrats über alle paarweisen Differenzen zwischen Werten, genauso wie die mittlere Gini-Differenz auf den absoluten Werten aller paarweisen Differenzen basiert.
Nick Cox

7

Das Schätzen der Standardabweichung einer Verteilung erfordert die Auswahl eines Abstands.
Jeder der folgenden Abstände kann verwendet werden:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

Wir verwenden normalerweise den natürlichen euklidischen Abstand ( ), den jeder im täglichen Leben verwendet. Der von Ihnen vorgeschlagene Abstand ist der mit . Beide sind gute Kandidaten, aber sie sind unterschiedlich.n=2n=1

Man könnte sich auch für entscheiden .n=3

Ich bin mir nicht sicher, ob Ihnen meine Antwort gefallen wird. Mein Punkt im Gegensatz zu anderen ist nicht zu zeigen, dass besser ist. Ich denke, wenn Sie die Standardabweichung einer Verteilung schätzen wollen, können Sie absolut einen anderen Abstand verwenden.n=2


6

Es hängt davon ab, wovon Sie sprechen, wenn Sie "Verbreitung der Daten" sagen. Für mich könnte dies zwei Dinge bedeuten:

  1. Die Breite einer Stichprobenverteilung
  2. Die Genauigkeit einer bestimmten Schätzung

Für Punkt 1) gibt es keinen besonderen Grund, die Standardabweichung als Maß für die Streuung zu verwenden, es sei denn, Sie haben eine normale Stichprobenverteilung. Das Maß ist ein geeigneteres Maß im Fall einer Laplace-Sampling-Verteilung . Ich vermute, dass die Standardabweichung hier verwendet wird, weil die Intuition aus Punkt 2) übernommen wurde. Wahrscheinlich auch aufgrund des Erfolgs der Modellierung der kleinsten Quadrate im Allgemeinen, für die die Standardabweichung das geeignete Maß ist. Wahrscheinlich auch, weil die Berechnung von für die meisten Verteilungen im Allgemeinen einfacher ist als die Berechnung von .E ( X 2 ) E ( | X | )E(|Xμ|)E(X2)E(|X|)

Nun, für Punkt 2) gibt es einen sehr guten Grund, die Varianz / Standardabweichung als Maß für die Streuung in einem bestimmten, aber sehr häufigen Fall zu verwenden. Sie können es in der Laplace-Annäherung an einen Seitenzahn sehen. Schreiben Sie mit Daten und Vorinformation den posterioren Wert für einen Parameter wie :I θDIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

Ich habe als Dummy-Variable verwendet, um anzuzeigen, dass der Nenner nicht von abhängt . Wenn der Posterior ein einzelnes, gut gerundetes Maximum hat (dh nicht zu nahe an einer "Grenze"), können wir die Log-Wahrscheinlichkeit um sein Maximum . Wenn wir die ersten beiden Terme der Taylor-Erweiterung nehmen, erhalten wir (unter Verwendung von Primzahl zur Differenzierung):tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

Aber wir haben hier das, weil ein "gut gerundetes" Maximum ist, , also haben wir:h ' ( θ max ) = 0θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

Wenn wir diese Annäherung anschließen, erhalten wir:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

Was aber für die Notation eine Normalverteilung ist, mit einem Mittelwert gleich und einer Varianz gleichE(θDI)θmax

V(θDI)[h(θmax)]1

( ist immer positiv, weil wir ein gut gerundetes Maximum haben). Das bedeutet, dass bei "regulären Problemen" (die meisten von ihnen) die Varianz die fundamentale Größe ist, die die Genauigkeit von Schätzungen für . Für Schätzungen, die auf einer großen Datenmenge basieren, ist die Standardabweichung theoretisch sehr sinnvoll - sie sagt Ihnen im Grunde alles, was Sie wissen müssen. Grundsätzlich gilt das gleiche Argument (mit den gleichen Bedingungen) im mehrdimensionalen Fall mit ist eine hessische Matrix. Auch hier sind die diagonalen Einträge im Wesentlichen Abweichungen.h(θmax)θh(θ)jk=h(θ)θjθk

Der Frequentist, der die Methode der maximalen Wahrscheinlichkeit verwendet, kommt im Wesentlichen zu dem gleichen Ergebnis, da die MLE tendenziell eine gewichtete Kombination der Daten ist, und für große Stichproben gilt der zentrale Grenzwertsatz, und Sie erhalten im Wesentlichen das gleiche Ergebnis, wenn wir aber mit vertauschten und : (Mal sehen, welches Paradigma mir am besten gefällt: P). In beiden Fällen ist die Standardabweichung bei der Parameterschätzung ein wichtiges theoretisches Maß für die Streuung.θ max p ( θ maxθ ) N ( θ , [ - h " ( θ max ) ] - 1 )p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

6

"Warum die Differenz quadrieren" statt "Absolutwert nehmen"? Um genau zu antworten, gibt es Literatur, in der die Gründe für die Annahme und der Grund, warum die meisten dieser Gründe nicht zutreffen, angegeben sind. "Können wir nicht einfach den absoluten Wert nehmen ...?" Mir ist Literatur bekannt, in der die Antwort lautet: Ja, es wird getan, und es wird als vorteilhaft angesehen, dies zu tun.

Der Autor Gorard stellt zunächst fest, dass die Verwendung von Quadraten früher aus Gründen der Einfachheit der Berechnung übernommen wurde, diese ursprünglichen Gründe jedoch nicht mehr zutreffen. Gorard gibt zweitens an, dass OLS übernommen wurde, weil Fisher herausgefunden hat, dass die Ergebnisse von Analysen, die OLS verwendeten, geringere Abweichungen aufwiesen als diejenigen, die absolute Unterschiede verwendeten (grob ausgedrückt). Somit scheint es, dass OLS unter bestimmten idealen Umständen Vorteile haben kann; Gorard merkt jedoch weiter an, dass es einen gewissen Konsens gibt (und er behauptet, Fisher stimmte dem zu), dass unter realen Bedingungen (unvollständige Messung von Beobachtungen, ungleichmäßige Verteilungen, Studien einer Population ohne Rückschluss auf eine Stichprobe) die Verwendung von Quadraten schlechter ist als absolute Unterschiede.

Gorards Antwort auf Ihre Frage: "Können wir nicht stattdessen einfach den absoluten Wert der Differenz nehmen und den erwarteten Wert (Mittelwert) davon erhalten?" ist ja. Ein weiterer Vorteil ist, dass durch die Verwendung von Unterschieden Maßstäbe (Maßstäbe für Fehler und Abweichungen) entstehen, die sich auf die Art und Weise beziehen, wie wir diese Ideen im Leben erleben. Gorard sagt, stellen Sie sich Menschen vor, die die Restaurantrechnung gleichmäßig aufteilen, und einige könnten intuitiv bemerken, dass diese Methode unfair ist. Niemand dort wird die Fehler ausgleichen; Die Unterschiede sind der Punkt.

Mit absoluten Unterschieden, so stellt er fest, wird jede Beobachtung gleich behandelt, wohingegen durch Quadrieren der Unterschiede die vorhergesagten Beobachtungen eine schlechtere Gewichtung erhalten als die gut vorhergesagten Beobachtungen, was so aussieht, als könnten bestimmte Beobachtungen mehrfach in die Studie einbezogen werden. Zusammenfassend lässt sich sagen, dass es heutzutage nicht viele gute Gründe gibt, Quadrate zu verwenden, und dass die Verwendung absoluter Unterschiede im Gegensatz dazu Vorteile hat.

Verweise:


1
Danke @Jen, das erinnert mich an die QWERTZ-Tastaturgeschichte. Hey, warum dauert es so lange, QWERTY einzugeben?
toto_tico

5

Weil Quadrate die Verwendung vieler anderer mathematischer Operationen oder Funktionen einfacher ermöglichen als absolute Werte.

Beispiel: Quadrate können problemlos integriert, differenziert, in trigonometrischen, logarithmischen und anderen Funktionen verwendet werden.


2
Ich frage mich, ob es hier einen sich selbst erfüllenden Beruf gibt. Wir bekommen
Wahrscheinlichkeitslogik

5

Beim Hinzufügen von Zufallsvariablen addieren sich deren Varianzen für alle Verteilungen. Varianz (und daher Standardabweichung) ist ein nützliches Maß für fast alle Verteilungen und ist in keiner Weise auf Gauß-Verteilungen (auch als "normale" Verteilungen bezeichnet) beschränkt. Das ist günstig, wenn wir es als unsere Fehlermaßnahme verwenden. Mangelnde Eindeutigkeit ist ein ernstes Problem bei absoluten Unterschieden, da es oft unendlich viele "Übereinstimmungen" im gleichen Maße gibt, und doch ist eindeutig die "Eins in der Mitte" am realistischsten zu bevorzugen. Auch bei heutigen Computern ist die Recheneffizienz von Bedeutung. Ich arbeite mit großen Datenmengen und die CPU-Zeit ist wichtig. Es gibt jedoch kein einziges absolutes "bestes" Maß für Residuen, wie einige frühere Antworten gezeigt haben. Unterschiedliche Umstände erfordern manchmal unterschiedliche Maßnahmen.


2
Ich bin nicht davon überzeugt, dass Varianzen für asymmetrische Verteilungen sehr nützlich sind.
Frank Harrell

Was ist mit einem Paar "Halbvarianzen", eine nach oben, eine nach unten?
kjetil b halvorsen

3

Natürlich können Sie die Streuung einer Verteilung in beliebiger Weise aussagekräftig beschreiben (absolute Abweichung, Quantile usw.).

Eine schöne Tatsache ist, dass die Varianz das zweite zentrale Moment ist und jede Verteilung durch ihre Momente eindeutig beschrieben wird, wenn sie existieren. Eine weitere nette Tatsache ist, dass die Varianz mathematisch viel besser erfassbar ist als jede vergleichbare Metrik. Eine andere Tatsache ist, dass die Varianz einer von zwei Parametern der Normalverteilung für die übliche Parametrisierung ist und die Normalverteilung nur zwei zentrale Momente ungleich Null aufweist, die genau diese beiden Parameter sind. Auch bei nicht normalen Distributionen kann es hilfreich sein, in einem normalen Rahmen zu denken.

Der Grund für die Standardabweichung ist meines Erachtens, dass in Anwendungen regelmäßig die Quadratwurzel der Varianz auftritt (z. B. um eine zufällige Varianble zu standardisieren), die einen Namen erforderlich machte.


1
Wenn ich mich richtig erinnere, ist die logarithmische Normalverteilung nicht eindeutig durch ihre Momente definiert.
Wahrscheinlichkeitsrechnung

1
@probabilityislogic, in der Tat, das ist wahr, siehe en.wikipedia.org/wiki/Log-normal_distribution im Abschnitt "Charakteristische Funktion und momentgenerierende Funktion".
kjetil b halvorsen

1

Ein anderer und vielleicht intuitiverer Ansatz ist, wenn Sie über lineare Regression vs. mediane Regression nachdenken.

Angenommen, unser Modell lautet . Dann finden wir b durch Minimieren des erwarteten quadratischen Residuums, .bgr ; & bgr; = arg min b E ( y - x b ) 2E(y|x)=xββ=argminbE(yxb)2

Wenn unser Modell stattdessen Median , finden wir unsere Parameterschätzungen durch Minimierung der absoluten Residuen,.β = arg min b E | y - x b |(y|x)=xββ=argminbE|yxb|

Mit anderen Worten, ob Sie einen absoluten oder einen quadratischen Fehler verwenden möchten, hängt davon ab, ob Sie den erwarteten Wert oder den Medianwert modellieren möchten.

Wenn die Verteilung beispielsweise eine verzerrte Heteroskedastizität aufweist, besteht ein großer Unterschied darin, wie sich die Steigung des erwarteten Werts von über ändert und wie sich die Steigung auf den Medianwert von .x yyxy

Koenker und Hallock haben eine schöne Arbeit über Quantile Regression, wobei die mediane Regression ein Sonderfall ist: http://master272.com/finance/QR/QRJEP.pdf .


0

Meine Vermutung ist folgende: Die meisten Populationen (Verteilungen) tendieren dazu, sich um den Mittelwert zu versammeln. Je weiter ein Wert vom Mittelwert entfernt ist, desto seltener ist er. Um adäquat auszudrücken, wie "out of line" ein Wert ist, müssen sowohl der Abstand zum Mittelwert als auch die (normalerweise) Seltenheit des Auftretens berücksichtigt werden. Dies erfolgt durch Quadrieren der Differenz zum Mittelwert im Vergleich zu Werten, die geringere Abweichungen aufweisen. Wenn alle Abweichungen gemittelt sind, ist es in Ordnung, die Quadratwurzel zu ziehen, wodurch die Einheiten auf ihre ursprünglichen Abmessungen zurückgesetzt werden.


2
Dies erklärt nicht, warum man den absoluten Wert der Differenz nicht einfach nehmen konnte . Das scheint den meisten Statistikstudenten konzeptionell einfacher zu sein und würde "sowohl die Entfernung vom Mittelwert als auch die (normalerweise) Seltenheit des Auftretens berücksichtigen".
gung

Ich denke, der absolute Wert der Differenz würde nur die Differenz zum Mittelwert ausdrücken und nicht die Tatsache berücksichtigen, dass große Unterschiede eine Normalverteilung doppelt stören.
Samuel Berry

2
Warum ist "doppelt störend" wichtig und nicht "dreifach störend" oder "vierfach störend"? Es sieht so aus, als ob diese Antwort lediglich die ursprüngliche Frage durch eine gleichwertige Frage ersetzt.
whuber

0

Quadrieren verstärkt größere Abweichungen.

Wenn Ihre Stichprobe Werte aufweist, die über das gesamte Diagramm verteilt sind, muss Ihre Standardabweichung etwas breiter sein, damit die 68,2% innerhalb der ersten Standardabweichung liegen. Wenn Ihre Daten tendenziell alle um den Mittelwert fallen, kann σ enger sein.

Einige sagen, dass es um Berechnungen zu vereinfachen ist. Die Verwendung der positiven Quadratwurzel des Quadrats hätte das gelöst, sodass dieses Argument nicht schwebt.

|x|=x2

Wenn also algebraische Einfachheit das Ziel gewesen wäre, hätte es so ausgesehen:

σ=E[(xμ)2] denselben Ergebnissen wie .E[|xμ|]

Offensichtlich hat das Quadrieren auch den Effekt, äußere Fehler zu verstärken (doh!).


Aufgrund einer soeben verarbeiteten Flagge habe der Downvoter vermutlich nicht vollständig verstanden, wie diese Antwort auf die Frage lautet. Ich glaube, ich sehe den Zusammenhang (aber Sie könnten trotzdem überlegen, einige Änderungen vorzunehmen, damit andere Leser Ihre Punkte besser einschätzen können). Ihr erster Absatz scheint mir jedoch ein zirkuläres Argument zu sein: Der Wert von 68,2% leitet sich aus den Eigenschaften der Standardabweichung ab. Wie kann das Aufrufen dieser Zahl dazu beitragen, die Verwendung der SD anstelle einer anderen Norm für Abweichungen zu rechtfertigen ? aus dem Mittelwert als eine Möglichkeit, die Ausbreitung einer Verteilung zu quantifizieren? Lp
Whuber

Der erste Absatz war der Grund für meine Ablehnung.
Alexis

3
@ Preston Thayne: Da die Standardabweichung nicht dem erwarteten Wert von entspricht sqrt((x-mu)^2), ist Ihre Formel irreführend. Nur weil Quadrieren größere Abweichungen verstärkt, heißt das noch lange nicht, dass dies der Grund für den Vorzug der Varianz gegenüber der MAD ist . Wenn überhaupt, ist , dass eine neutrale Eigenschaft , da oft wir wollen etwas mehr robust wie die MAD . Schließlich ist die Tatsache, dass die Varianz mathematisch leichter zu bestimmen ist als die MAD , mathematisch gesehen ein viel tieferes Problem, als Sie in diesem Beitrag beschrieben haben.
Steve S

0

Warum die Differenz quadrieren, anstatt den absoluten Wert in Standardabweichung zu nehmen?

Wir quadrieren die Differenz der x zum Mittelwert, weil der euklidische Abstand proportional zur Quadratwurzel der Freiheitsgrade (Anzahl der x in einem Populationsmaß) das beste Maß für die Streuung ist.

Entfernung berechnen

Wie weit ist es von Punkt 0 bis Punkt 5?

  • 50=5 ,
  • |05|=5 und
  • 52=5

Ok, das ist trivial, weil es eine einzige Dimension ist.

Wie ist die Entfernung für einen Punkt bei Punkt 0, 0 bis Punkt 3, 4?

Wenn wir nur eine Dimension gleichzeitig betreten können (wie in Stadtblöcken), addieren wir einfach die Zahlen. (Dies wird manchmal als Manhattan-Entfernung bezeichnet).

Aber was ist mit zwei Dimensionen auf einmal? Dann (nach dem Satz von Pythagoras, den wir alle in der High School gelernt haben) quadrieren wir den Abstand in jeder Dimension, summieren die Quadrate und ermitteln dann mit der Quadratwurzel den Abstand vom Ursprung zum Punkt.

32+42=25=5

Wie wäre es mit der Entfernung von einem Punkt bei 0, 0, 0 zu Punkt 1, 2, 2?

Das ist gerecht

12+22+22=9=3

weil die Distanz für die ersten beiden x das Bein für die Berechnung der Gesamtdistanz mit dem letzten x bildet.

x12+x222+x32=x12+x22+x32

Wir können die Regel der Quadratur des Abstands jeder Dimension weiter ausdehnen. Dies verallgemeinert sich auf das, was wir einen euklidischen Abstand nennen, für orthogonale Messungen im hyperdimensionalen Raum wie folgt:

distance=i=1nxi2

und so ist die Summe der orthogonalen Quadrate die quadratische Entfernung:

distance2=i=1nxi2

Was macht eine Messung orthogonal (oder rechtwinklig) zu einer anderen? Voraussetzung ist, dass zwischen den beiden Messungen keine Beziehung besteht. Wir würden uns bemühen , dass diese Messungen unabhängig und individuell verteilt sind ( iid ).

Varianz

Erinnern Sie sich jetzt an die Formel für die Populationsvarianz (von der wir die Standardabweichung erhalten):

σ2=i=1n(xiμ)2n

Wenn wir die Daten bereits durch Subtrahieren des Mittelwerts auf 0 zentriert haben, haben wir:

σ2=i=1n(xi)2n

Wir sehen also, dass die Varianz nur der quadratische Abstand geteilt durch die Anzahl der Freiheitsgrade ist (die Anzahl der Dimensionen, auf denen die Variablen variieren können). Dies ist auch der durchschnittliche Beitrag zum pro Messung. "Mean Squared Varianz" wäre auch ein geeigneter Begriff.distance2

Standardabweichung

Dann haben wir die Standardabweichung, die nur die Quadratwurzel der Varianz ist:

σ=i=1n(xiμ)2n

Das ist äquivalent die Distanz , dividiert durch die Quadratwurzel der Freiheitsgrade:

σ=i=1n(xi)2n

Mittlere absolute Abweichung

Die mittlere absolute Abweichung (Mean Absolute Deviation, MAD) ist ein Maß für die Streuung, bei der der Manhattan-Abstand oder die Summe der absoluten Werte der Differenzen vom Mittelwert verwendet wird.

MAD=i=1n|xiμ|n

Unter der Annahme, dass die Daten zentriert sind (der subtrahierte Mittelwert), haben wir die Manhattan-Entfernung geteilt durch die Anzahl der Messungen:

MAD=i=1n|xi|n

Diskussion

  • Die mittlere absolute Abweichung beträgt etwa das Achtfache ( tatsächlich2/π ) der Größe der Standardabweichung für einen normalverteilten Datensatz.
  • Unabhängig von der Verteilung ist die mittlere absolute Abweichung kleiner oder gleich der Standardabweichung. MAD versteht die Streuung eines Datensatzes mit Extremwerten relativ zur Standardabweichung.
  • Die mittlere absolute Abweichung ist für Ausreißer robuster (dh Ausreißer haben weniger Einfluss auf die Statistik als auf die Standardabweichung).
  • Geometrisch gesehen wäre die mittlere absolute Abweichung, wenn die Messungen nicht orthogonal zueinander sind (iid) - wenn sie beispielsweise positiv korreliert wären - eine bessere beschreibende Statistik als die Standardabweichung, die sich auf den euklidischen Abstand stützt (obwohl dies normalerweise als gut angesehen wird) ).

Diese Tabelle gibt die obigen Informationen in einer präziseren Weise wieder:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

Bemerkungen:

Haben Sie eine Referenz für "Die mittlere absolute Abweichung beträgt etwa das 8-fache der Standardabweichung für einen normalverteilten Datensatz"? Die Simulationen zeigen, dass dies falsch ist.

Hier sind 10 Simulationen von einer Million Proben aus der Standardnormalverteilung:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

Fazit

Wir bevorzugen die quadratischen Differenzen bei der Berechnung eines Dispersionsmaßes, weil wir den euklidischen Abstand ausnutzen können, wodurch wir eine bessere diskriptive Statistik der Dispersion erhalten. Wenn es relativ extreme Werte gibt, wird dies in der Statistik durch die euklidische Distanz berücksichtigt, wohingegen die Manhattan-Distanz jeder Messung das gleiche Gewicht verleiht.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.