Warum nehmen wir die Quadratwurzel der Varianz, um die Standardabweichung zu erzeugen?


26

Entschuldigung, wenn dies an anderer Stelle beantwortet wurde, ich konnte es nicht finden.

Ich frage mich, warum wir die Quadratwurzel insbesondere der Varianz nehmen, um die Standardabweichung zu erzeugen. Was bedeutet es, die Quadratwurzel zu ziehen, die einen nützlichen Wert ergibt?



2
Stellen Sie sich die Standardabweichung als euklidische Vektornorm und dann die Varianz als Quadrat vor. Diese Definition von Varianz und Standardabweichung hat nützliche analytische Eigenschaften.
Theideasmith

Antworten:


44

In gewissem Sinne ist dies eine triviale Frage, in einem anderen Sinne ist sie tatsächlich ziemlich tief!

  • Wie andere bereits erwähnt haben, impliziert die Verwendung der Quadratwurzel, dass die gleichen Einheiten wie .Stdev(X)X

  • Wenn Sie die Quadratwurzel ziehen, erhalten Sie absolute Homogenität, auch absolute Skalierbarkeit genannt . Für jeden skalar und Zufallsvariable , die wir haben: Absolute Homogenität ist eine erforderliche Eigenschaft einer Norm . Die Standardabweichung kann als Norm (auf dem Vektorraum der Zufallsvariablen mit dem Mittelwert Null) auf ähnliche Weise interpretiert werden wie die euklidische Standardnorm in einer dreidimensionalen Platz. Die Standardabweichung ist ein Maß für den Abstand zwischen einer Zufallsvariablen und ihrem Mittelwert.αX

    Stdev[αX]=|α|Stdev[X]
    x2+y2+z2

Standardabweichung und die NormL2

Fall mit endlicher Dimension:

In einem dimensionalen Vektorraum ist die Standard- Norm , auch bekannt als die Norm, wie folgt definiert:nL2

x2=ixi2

Im weiteren Sinne nimmt die -norm die te Wurzel, um absolut zu werden Homogenität: .p xp=(i|xi|p)1ppαxp=(i|αxi|p)1p=|α|(i|xi|p)1p=|α|xp

Wenn Sie die Gewichte ist die gewichtete Summe ebenfalls eine gültige Norm. Außerdem ist es die Standardabweichung, wenn Wahrscheinlichkeiten undqiixi2qiqiE[x]ixiqi=0

Fall mit unendlicher Dimension:

In einem unendlich dimensionalen Hilbert-Raum können wir auf ähnliche Weise die Norm definieren :L2

X2=ωX(ω)2dP(ω)

Wenn eine Zufallsvariable mit dem Mittelwert Null ist und das Wahrscheinlichkeitsmaß ist, wie lautet die Standardabweichung? Es ist dasselbe: .XPωX(ω)2dP(ω)

Zusammenfassung:

Unter Verwendung der Quadratwurzel ergibt sich , dass die Standardabweichung die absolute Homogenität erfüllt , eine geforderte Eigenschaft einer Norm .

In einem Raum von Zufallsvariablen ist ein inneres Produkt und das Norm durch das innere Produkt induziert . Somit ist die Standardabweichung die Norm einer erniedrigten Zufallsvariablen: Es ist ein Maß für die Entfernung vom Mittelwert zu .X,Y=E[XY]X2=E[X2]

Stdev[X]=XE[X]2
E[X]X

(Technischer Punkt: Während eine Norm ist, ist die Standardabweichung ist keine Norm über Zufallsvariablen in der Regel , weil eine Voraussetzung für einen normierter Vektorraum ist , wenn und nur wenn . eine Standardabweichung von 0 doesn‘ t implizieren, dass die Zufallsvariable das Nullelement ist.)E[X2]E[(XE[X])2]x=0x=0


1
Diese Antwort steht im Mittelpunkt des Problems und macht es informativer als die derzeit akzeptierte.
00prometheus

26

Die Varianz von ist definiert als , es ist also eine Erwartung einer quadratischen Differenz zwischen X und seinem erwarteten Wert.XV(X)=E(XE(X))2

Wenn die Zeit in Sekunden ist, ist in Sekunden, aber ist in und ist wieder in Sekunden.XXE(X)V(X)seconds2V(X)


Ah, ich verstehe, es macht nur die Änderung des Maßstabs rückgängig, die sich aus dem Quadrieren der Unterschiede bei der Varianzberechnung ergibt.
Dave

11
Richtig - aber Änderung der Abmessungen , nicht des Maßstabs.
Jean-François Corbett

Aber es ist nicht so, als gäbe es einen einzigen Begriff: Es gibt viele, und jeder in Potenz 2 bringt mehr oder weniger als andere Begriffe. Aber wenn wir die Quadratwurzel ziehen, vernachlässigen wir diesen Unterschied, nicht wahr? Wir würden den anfänglichen Zähler nicht erhalten, die Summe aller Unterschiede auf diese Weise. Wäre es nicht besser, eine Quadratwurzel aus jedem einzelnen Begriff zu ziehen?
Parsecer

Es hört sich so an, als würden Sie über die Schätzung nachdenken , die auf einer Stichprobe basiert. In diesem Fall würden die Differenzen auf Null gesetzt: . V^i=1n(xix¯)=i=1nxii=1nxi=0
HStamper

@EricMittman Außer, dass , nicht , in welchem ​​Fall Sie den mittleren absoluten Fehler erhalten würden . a2=|a|a
Dougal

6

Die einfache Antwort lautet, dass die Einheiten auf derselben Skala wie der Mittelwert liegen. Beispiel: Ich schätze den Mittelwert für einen Sekundarschüler auf 160 cm mit einer Standardabweichung (SD) von 20 cm. Es ist intuitiv einfacher, mit der SD ein Gefühl für die Abweichung zu bekommen, als mit der Abweichung von 400 cm ^ 2.


0

Einfacher ausgedrückt ist die Standardabweichung so ausgelegt, dass sie uns eine positive Zahl gibt, die etwas über die Verbreitung unserer Daten über ihren Mittelwert aussagt.

Wenn wir nur die Abstände aller Punkte vom Mittelwert addieren, werden die Punkte in positiver und negativer Richtung so kombiniert, dass sie sich tendenziell zum Mittelwert zurückziehen und Informationen über die Streuung verloren gehen. Deshalb messen wir zuerst die Varianz, damit alle Abstände durch Quadrieren als positive Größen erhalten bleiben und sich nicht gegenseitig aufheben. Am Ende wollen wir einen positiven Wert, der die Einheiten darstellt, mit denen wir begonnen haben - dies wurde bereits oben kommentiert -, also nehmen wir die positive Quadratwurzel.


-3

Es ist eine historische Dummheit, die wir aufgrund intellektueller Faulheit fortsetzen. Sie haben sich entschieden, die Differenzen vom Mittelwert zu quadrieren, um das Minuszeichen zu beseitigen. Dann nahmen sie die Quadratwurzel, um sie auf eine dem Mittelwert ähnliche Skala zu bringen.

Jemand sollte neue Statistiken erstellen, Varianz und SD unter Verwendung des Moduls oder der absoluten Werte der Abweichung vom Mittelwert berechnen. Dies würde diese ganze Quadratur loswerden und dann das Quadratwurzelgeschäft übernehmen.


1
Wir haben das bereits in Form der mittleren (oder mittleren) absoluten Abweichung, L1-Normen und dergleichen. Doch das ist wesentliche Vorteil des traditionellen Ansatzes , dass, im Gegensatz zu absoluten Werten, es ist differenzierbar, die Sie analytisch zu minimieren und Maximieren Dinge ermöglicht.
Matt Krause

1
Wenn Sie Ihre Haltung nicht inhaltlich begründen, geben Sie bitte ein klares mathematisches Argument an. Die Summe der Absolutwerte skaliert sehr unterschiedlich zur Quadratwurzel der Quadratsumme. Letzteres betont den Beitrag von Extremwerten, was eine nützliche Eigenschaft ist. Darüber hinaus spielt SSQ eine zentrale Rolle bei der Analyse der kleinsten Fehlerquadrate. Bitte nehmen Sie sich die Zeit, um die Probleme mit SD und den Vergleich der Alternativen zu erläutern, damit die Leser Ihre Sichtweise verstehen können. .
ReneBt

(-1) Es ist allzu leicht, Sätze wie "historische Dummheit" und "intellektuelle Faulheit" als selbstreferenziell zu lesen.
Whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.