Intuition hinter der Standardabweichung

25

Ich versuche, die Standardabweichung intuitiver zu verstehen.

Soweit ich weiß, ist es repräsentativ für den Durchschnitt der Unterschiede eines Satzes von Beobachtungen in einem Datensatz gegenüber dem Mittelwert dieses Datensatzes. Es entspricht jedoch NICHT den Durchschnittswerten der Differenzen, da Beobachtungen, die weiter vom Mittelwert entfernt sind, mehr Gewicht erhalten.

Angenommen, ich habe die folgende Grundgesamtheit von Werten - $\{1, 3, 5, 7, 9\}$

Der Mittelwert ist . $5$

Wenn ich die Streuung auf der Grundlage des absoluten Werts beziehe, erhalte ich

\frac{\sum_{ich = 1}^{5} | x_{ich} - μ |}{5} = 2.4

$\frac{\sum_{i = 1}^5|x_i - \mu|}{5} = 2.4$

Wenn ich ein Spread-Maß nehme, das auf der Standardabweichung basiert, erhalte ich

\sqrt{\frac{\sum_{ich = 1}^{5} (x_{ich} - μ)^{2}}{5}} = 2,83

$\sqrt{\frac{\sum_{i = 1}^5(x_i - \mu)^2}{5}} = 2.83$

Das Ergebnis bei Verwendung der Standardabweichung ist erwartungsgemäß größer, da Werte, die weiter vom Mittelwert entfernt sind, zusätzlich gewichtet werden.

Aber wenn mir nur gesagt würde, dass ich es mit einer Bevölkerung mit einem Mittelwert von und einer Standardabweichung von tun habe, wie würde ich daraus schließen, dass die Bevölkerung aus Werten wie ? Es scheint nur, dass die Zahl sehr willkürlich ist ... Ich verstehe nicht, wie Sie es interpretieren sollen. Bedeutet dass die Werte sehr breit gestreut sind, oder sind sie alle eng um den Mittelwert gruppiert? $5$ $2.83$ $\{1, 3, 5, 7, 9\}$ $2.83$ $2.83$

Wenn Ihnen die Aussage vorgelegt wird, dass Sie es mit einer Bevölkerung mit einem Mittelwert von und einer Standardabweichung von tun haben, was sagt Ihnen das über die Bevölkerung aus? $5$ $2.83$

standard-deviation intuition

— Überschallknall
quelle

2

Diese Frage bezieht sich (obwohl nicht identisch) auf stats.stackexchange.com/q/81986/3277 und eine weitere, die mit dieser Frage verknüpft ist.

— TTNPHNS

1

Es gibt einen "typischen" Abstand vom Mittelwert (der RMS-Abstand) an. Was das "groß" oder "klein" macht, hängt von Ihren Kriterien ab. Wenn Sie versuchen, technische Toleranzen zu messen, kann dies sehr groß sein. In anderen Zusammenhängen kann dieselbe Standardabweichung als ziemlich klein angesehen werden.

— Glen_b -Reinstate Monica

13

Meine Intuition ist, dass die Standardabweichung ist: ein Maß für die Verbreitung der Daten.

Sie haben ein gutes Argument dafür, dass es von unserer zugrunde liegenden Annahme für die Verteilung der Daten abhängt, ob sie breit oder eng ist.

Vorsichtsmaßnahme: Ein Maß für die Streuung ist am hilfreichsten, wenn die Verteilung Ihrer Daten symmetrisch zum Mittelwert ist und eine Varianz aufweist, die der Normalverteilung relativ nahe kommt. (Dies bedeutet, dass es ungefähr normal ist.)

In dem Fall, in dem die Daten ungefähr normal sind, hat die Standardabweichung eine kanonische Interpretation:

Region: Stichprobenmittelwert +/- 1 Standardabweichung, enthält ca. 68% der Daten
Region: Stichprobenmittelwert +/- 2 Standardabweichung, enthält ca. 95% der Daten
Region: Stichprobenmittelwert +/- 3 Standardabweichung, enthält ca. 99% der Daten

(siehe erste Grafik im Wiki )

Dies bedeutet, dass, wenn wir wissen, dass der Bevölkerungsmittelwert 5 und die Standardabweichung 2,83 beträgt und wir davon ausgehen, dass die Verteilung ungefähr normal ist, ich Ihnen sagen würde, dass ich ziemlich sicher bin, dass, wenn wir (sehr) viele Beobachtungen machen, nur 5% dies tun werden kleiner als 0,4 = 5 - 2 * 2,3 oder größer als 9,6 = 5 + 2 * 2,3 sein.

Beachten Sie, wie sich die Standardabweichung auf unser Konfidenzintervall auswirkt. (je breiter, desto unsicherer)

Darüber hinaus wissen Sie im allgemeinen Fall, dass die Daten nicht annähernd normal, aber immer noch symmetrisch sind, dass es einige für die: $\alpha$

Region: Stichprobenmittelwert +/- Standardabweichung, enthält ca. 95% der Daten $\alpha$

Sie können entweder aus einer Teilstichprobe lernen oder annehmen. Dies gibt Ihnen häufig eine gute Faustregel, um in Ihrem Kopf zu berechnen, welche zukünftigen Beobachtungen zu erwarten sind oder welche der neuen Beobachtungen als solche betrachtet werden können Ausreißer. (Beachten Sie jedoch die Einschränkung!) $\alpha$ $\alpha=2$

Ich verstehe nicht, wie du es interpretieren sollst. Bedeutet 2,83, dass die Werte sehr breit gestreut sind, oder sind sie alle eng um den Mittelwert gruppiert?

Ich denke, jede Frage, die "wide or tight" gestellt wird, sollte auch Folgendes enthalten: "in Bezug auf was?". Ein Vorschlag könnte sein, eine bekannte Distribution als Referenz zu verwenden. Abhängig vom Kontext kann es nützlich sein, über Folgendes nachzudenken: "Ist es viel breiter oder enger als ein Normal / Poisson?".

EDIT: Basierend auf einem nützlichen Hinweis in den Kommentaren ein weiterer Aspekt zur Standardabweichung als Abstandsmaß.

Eine weitere Intuition für die Nützlichkeit der Standardabweichung ist, dass es sich um ein Abstandsmaß zwischen den und ihrem Mittelwert : $s_N$ $x_1,… , x_N$ $\bar{x}$

$s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}$

Zum Vergleich wird der mittlere quadratische Fehler (MSE), eine der beliebtesten Fehlermaßnahmen in der Statistik, wie folgt definiert:

$\operatorname{MSE}=\frac{1}{n}\sum_{i=1}^n(\hat{Y_i} - Y_i)^2$

Die Fragen können aufgeworfen werden, warum die obige Distanzfunktion? Warum zum Beispiel quadratische Abstände und keine absoluten Abstände? Und warum ziehen wir die Quadratwurzel?

Quadratische Distanz- oder Fehlerfunktionen haben den Vorteil, dass wir sie sowohl unterscheiden als auch leicht minimieren können. Was die Quadratwurzel anbelangt, trägt dies zur Interpretierbarkeit bei, da der Fehler zurück in die Skala unserer beobachteten Daten konvertiert wird.

— Mittel zur Bedeutung
quelle

Warum ist ein Maß für die Streuung Ihrer Meinung nach am hilfreichsten, wenn die Daten normal sind? Es scheint mir, dass jeder Datensatz eine Streuung hat und die Standardabweichung eine Zusammenfassung der Streuung ist, auch wenn sie nicht die Form der Streuung erfasst.

— Michael Lew

Klar hast du recht. Aber ich habe nicht behauptet, dass die Standardabweichung in irgendeiner Weise von der Form der Verteilung abhängt. Wenn Sie lediglich Kenntnisse über die Form haben (oder bereit sind, diese Annahme zu treffen), sind diese Informationen in der Regel viel hilfreicher. In ähnlicher Weise ist der Stichprobenmittelwert ein guter Deskriptor Ihrer Daten, WENN Sie bestimmte allgemeine Annahmen über die Verteilung treffen können.

— Mittel zur Bedeutung

Mein Lieblingsgrund für die Verwendung eines Quadrats anstelle eines Absolutwerts ist, dass es sich um einen Logarithmus der Wahrscheinlichkeit eines Gaußschen handelt. Wenn Sie also glauben, dass Fehler gaußscher Natur sind und dass Bits eine gute Methode zum Messen von Informationen darstellen, ist es sinnvoll, Fehlerquadrate zu verwenden.

— qbolec

5

Es kann hilfreich sein zu erkennen, dass der Mittelwert dem Massenmittelpunkt entspricht . Die Varianz ist das Trägheitsmoment . Die Standardabweichung ist der Trägheitsradius .

Für eine historische Perspektive werfen Sie einen Blick auf:

George Airy (1875) Zur algebraischen und numerischen Theorie der Beobachtungsfehler und der Beobachtungskombination

Karl Pearson (1894) Beiträge zur mathematischen Evolutionstheorie.

Dieses Diagramm von Airy 1875 zeigt die verschiedenen Maße der Abweichung, die leicht ineinander umgewandelt werden können (Seite 17). Die Standardabweichung wird als "Fehler des mittleren Quadrats" bezeichnet. Es wird auch auf den Seiten 20-21 besprochen und seine Verwendung auf Seite 48 begründet. Dies zeigt, dass es am einfachsten ist, von Hand zu berechnen, da negative und positive Fehler nicht getrennt berechnet werden müssen. Der Begriff Standardabweichung wurde von Pearson in dem oben zitierten Aufsatz auf Seite 75 eingeführt.

Bildbeschreibung hier eingeben

Übrigens: Beachten Sie, dass die Nützlichkeit der Standardabweichung von der Anwendbarkeit des "Fehlergesetzes" abhängt, das auch als "normale Kurve" bezeichnet wird und sich aus "sehr vielen unabhängigen Fehlerursachen" ergibt (Airy 1875 S. 7). Es gibt keinen Grund zu der Annahme, dass Abweichungen von einem Gruppenmittelwert jedes Einzelnen diesem Gesetz folgen sollten. In vielen Fällen ist für biologische Systeme eine logarithmische Normalverteilung eine bessere Annahme als normal. Sehen:

Limpert et al. (2001) Logarithmische Normalverteilungen über die Wissenschaften: Schlüssel und Hinweise

Es ist weiterhin fraglich, ob es angebracht ist, individuelle Variationen als Rauschen zu behandeln, da der Datenerzeugungsprozess auf der Ebene des Individuums und nicht der Gruppe abläuft.

— Livid
quelle

3

Die Standardabweichung gibt denjenigen, die weiter vom Mittelwert entfernt sind, tatsächlich mehr Gewicht, da sie die Quadratwurzel des Durchschnitts der quadratischen Abstände ist. Die Gründe für die Verwendung dieser Methode (anstelle der von Ihnen vorgeschlagenen mittleren absoluten Abweichung oder der in robusten Statistiken verwendeten mittleren absoluten Abweichung) liegen zum Teil darin, dass die Berechnung mit Polynomen einfacher ist als mit absoluten Werten. Oft möchten wir jedoch die Extremwerte hervorheben.

Ihre Frage nach der intuitiven Bedeutung entwickelt sich im Laufe der Zeit. Sie haben Recht, dass mehr als ein Satz von Zahlen den gleichen Mittelwert und den gleichen Wert haben kann. Dies liegt daran, dass der Mittelwert und SD nur zwei Informationen sind und der Datensatz 5 Teile (als 1,3,5,7,9) oder viel mehr umfassen kann.

Ob ein Mittelwert von 5 und sd von 2,83 "breit" oder "schmal" ist, hängt von dem Bereich ab, in dem Sie arbeiten.

Wenn Sie nur 5 Nummern haben, ist es einfach, sich die vollständige Liste anzusehen. Wenn Sie viele Zahlen haben, können Sie intuitiver über die Streuung nachdenken, z. B. über die Zusammenfassung der fünf Zahlen oder, noch besser, über Diagramme wie ein Dichtediagramm.

— Peter Flom - Wiedereinsetzung von Monica
quelle

2

Die Standardabweichung misst den Abstand Ihrer Grundgesamtheit vom Mittelwert als Zufallsvariable.

Nehmen wir an, dass Ihre 5 Zahlen mit gleicher Wahrscheinlichkeit vorgekommen sind, sodass jede Wahrscheinlichkeit 0,20 hat. Dies wird durch die Zufallsvariable gegeben durch $X: [0,1] \rightarrow \mathbb{R}$

X (t) = {\begin{cases} 1 & 0 \leq t < \frac{1}{5} \\ 3 & \frac{1}{5} \leq t < \frac{2}{5} \\ 5 & \frac{2}{5} \leq t < \frac{3}{5} \\ 7 & \frac{3}{5} \leq t < \frac{4}{5} \\ 9 & \frac{4}{5} \leq t \leq 1 \end{cases}

$X(t) = \begin{cases} 1 & 0 \leq t < \frac{1}{5} \\ 3 & \frac{1}{5} \leq t < \frac{2}{5}\\ 5 & \frac{2}{5} \leq t < \frac{3}{5}\\ 7 & \frac{3}{5} \leq t < \frac{4}{5}\\ 9 & \frac{4}{5} \leq t \leq 1 \end{cases}$

Der Grund, warum wir uns der Funktions- und Maßtheorie zuwenden, ist, dass wir systematisch darüber diskutieren müssen, wie zwei Wahrscheinlichkeitsräume bis zu Ereignissen mit einer Wahrscheinlichkeit von Null identisch sind. Nachdem wir zu Funktionen gewechselt sind, brauchen wir ein Gefühl der Distanz.

Es gibt viele Richtungen der Distanz für Funktionen, insbesondere die Normen für und induzieren die Distanzfunktionen .

| | Y. | |_{p} = {(\int_{0}^{1} | Y. (t) |^{p} d t)}^{1 / p}

$||Y||_p = \left(\int_{0}^1|Y(t)|^pdt\right)^{1/p}$

Y : [0, 1] \to R

$Y: [0,1] \rightarrow \mathbb{R}$

1 \leq p < \infty

$1 \leq p < \infty$

d_{p} (Y, Z) = | | X - Z | |_{p}

$d_p(Y,Z) = ||X - Z||_p$

Wenn wir die Norm wir die von Ihnen erwähnte naive Absolutwertabweichung: Wenn wir die Norm wir die übliche Standardabweichung $p=1$

d_{1} (X, 5) = | | X - \underline{5} | |_{1} = 2.4.

$d_1(X,5) = ||X - \underline{5} ||_1 = 2.4.$

p = 2

$p=2$

d_{2} (X, 5) = | | X - \underline{5} | |_{2} = 2,83.

$d_2(X,5) = ||X-\underline{5}||_2 = 2.83.$

Hier bezeichnet die konstante Funktion . $\underline{5}$ $t \mapsto 5$

Die Bedeutung der Standardabweichung zu verstehen bedeutet, die Bedeutung der Abstandsfunktion verstehen und zu verstehen, warum sie in vielerlei Hinsicht das beste Maß für den Abstand zwischen Funktionen ist. $d_2$

— SomeEE
quelle

Diese Erklärung enthält einige Konstruktionen, die nicht "intuitiv" zu sein scheinen. Das wichtigste ist das ungerechtfertigte Auftreten einer Funktion, die in , einem Intervall, das nichts mit der Einstellung zu tun hat. (Es ist natürlich, als wobei die Algebra die Potenzmenge von .) Auch die Interpretation von Ausdrücken wie " " ist etwas problematisch, da " " eine Zahl - den Mittelwert der Grundgesamtheit - und keine Zufallsvariable darstellt. Am Ende, nachdem all diese Maschinerie eingeführt wurde, wird die Frage neu formuliert, aber nicht wirklich beantwortet.

[0, 1]

$[0,1]$

X : {1, 3, 5, 7, 9} \to R

$X:\{1,3,5,7,9\}\to\mathbb{R}$

X (i) = i

$X(i)=i$

{1, 3, 5, 7, 9}

$\{1,3,5,7,9\}$

| | X - 5 | |_{1}

$||X-5||_1$

5

$5$

— Whuber

Ja, die von Ihnen aufgeführte Zufallsvariable ist Standard für diejenigen, die mit der Maßtheorie vertraut sind. Ich hatte gehofft, es auf das Verstehen von Funktionen und Integration für Menschen mit reinem Kalkülhintergrund einzugrenzen. Ich werde den Mittelwert als Funktion umschreiben.

— SomeEE

Da es sich um eine neu formulierte Frage handelt, schlagen Sie vor, Kommentare darüber aufzunehmen, warum das beste Maß für den Abstand zwischen Funktionen ist.

d_{2}

$d_2$

— SomeEE

In der Frage wird nach Intuition gefragt, um die Standardabweichung zu verstehen. Sie haben erklärt, wie es die Norm in einem Funktionsraum ist. Obwohl dies eine weitere mathematische Formalisierung darstellt (und für einen Mathematiker, der die Standardabweichung ansonsten nicht kennt, eine angemessene Intuition wäre), scheint es nicht mehr das zu sein, was das Originalplakat verlangte. Am willkommensten wäre ein Folgeabsatz, in dem die "Bedeutung der Abstandsfunktion " erläutert und die Sinne, in denen es sich um ein "bestes" Abstandsmaß handelt, - wenn auch nur ein wenig - erläutert werden .

L^{2}

$L^2$

d_{2}

$d_2$

— whuber