Was ist eine Standardabweichung?


31

Was ist eine Standardabweichung, wie wird sie berechnet und wie wird sie in der Statistik verwendet?


7
Ich glaube nicht, dass der Zweck dieser Seite darin besteht, Fragen der 6. Klasse zu beantworten. Und mein Kind würde, wenn es mit einer solchen Frage konfrontiert wird, nach der Antwort suchen. Wenn Sie einen bestimmten Teil der Definition nicht verstehen, fragen Sie nach. Aber eine so unkonzentrierte Frage zu einem so grundlegenden Thema zeigt (für mich jedenfalls), dass das Poster nicht einmal versucht hat, eine Antwort zu finden. Was kommt als nächstes? "Was ist eine Nummer und wie werden sie verwendet?"
PeterR

9
Ich denke diese Frage ist in Ordnung. Tatsächlich war es das am besten bewertete Beispiel für eine Themenfrage zu Area 51. Die Grundlagen sind hier in Ordnung!
Peter Smit

6
Einverstanden, es ist eine berechtigte Frage. Es ist auch gut ausgedrückt, da es zum Beispiel die Verwendung und Berechnung verlangt. Sicherlich ist der Zweck der Website, ein Repository für ALLE statistischen Fragen zu erstellen.
Joel

5
Ich stimme Joel zu. Standardabweichung ist ein wichtiges Konzept in der Statistik. Wäre es nicht absurd, wenn Sie auf einer Website keine Frage zu statistischen Fragen stellen könnten?
Parbury,

4
Als Gymnasiallehrer in einem früheren Leben werde ich sagen, dass es keine dummen Fragen gibt. In dem Moment, in dem Sie eine Frage als unwürdig bezeichnen, wird Ihnen die wirksamste Art des Lernens genommen, nämlich Fragen zu stellen! (Ich werde diese Frage unten beantworten.)
Adhesh Josh

Antworten:


30

Die Standardabweichung ist eine Zahl, die die "Streuung" oder "Streuung" eines Datensatzes darstellt. Es gibt andere Maßnahmen zur Streuung, wie z. B. Reichweite und Varianz.

Hier sind einige Beispieldatensätze und ihre Standardabweichungen:

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

Die obigen Datensätze haben den gleichen Mittelwert.

Abweichung bedeutet "Abstand vom Mittelwert".

"Standard" bedeutet hier "standardisiert", was bedeutet, dass die Standardabweichung und der Mittelwert im Gegensatz zur Varianz in denselben Einheiten angegeben sind.

Wenn beispielsweise die mittlere Höhe 2 Meter beträgt , kann die Standardabweichung 0,3 Meter betragen , während die Varianz im Quadrat 0,09 Meter beträgt .

Es ist praktisch zu wissen, dass mindestens 75% der Datenpunkte immer innerhalb von 2 Standardabweichungen des Mittelwerts liegen (oder ungefähr 95%, wenn die Verteilung normal ist).

Wenn beispielsweise der Mittelwert 100 und die Standardabweichung 15 beträgt, liegen mindestens 75% der Werte zwischen 70 und 130.

Wenn die Verteilung zufällig normal ist, liegen 95% der Werte zwischen 70 und 130.

Im Allgemeinen sind die IQ-Testergebnisse normal verteilt und haben einen Durchschnitt von 100. Jemand, der "sehr hell" ist, weist zwei Standardabweichungen über dem Mittelwert auf, was ein IQ-Testergebnis von 130 bedeutet.


Neil, danke für deine Antwort, könntest du bitte den Teil "Standard" im Begriff "Standardabweichung" genauer erläutern. Wenn es angebracht ist, können Sie unter "Standardfehler des Mittelwerts" den gleichen "Standard" -Begriff angeben. Danke im Voraus.
stan

Zu Ihren letzten Änderungen: Inwiefern ist die SD "standardisiert"? In der Regel wird es zur Grundlage für die Standardisierung, ist jedoch selbst nicht standardisiert (z. B. durch eine Neuskalierung anhand einer Schätzung der Stichprobenvariation).
whuber

Es ist standardisiert, in der gleichen Einheit wie der Durchschnitt zu sein
Neil McGuigan,

Das Beispiel mit einer mittleren Höhe von 2 Metern ist ein gutes Beispiel für die Notwendigkeit, die Verwendung von Dezimalstellen zu berücksichtigen. Dasselbe Beispiel könnte in Zentimetern erfolgen, wobei sich eine Standardabweichung von 30 Zentimetern logischerweise aus einer Varianz von 900 Zentimetern ergibt.
Robert Jones

Mein Eindruck ist, dass sie in den primären Maßeinheiten vermieden werden sollten. Betrachten Sie die Ergebnisse einer SD von 0,133 in Metern, umgerechnet in Dezimeter, Zentimeter und Millimeter. Würde es jemanden interessieren, dies zu klären, bitte?
Robert Jones

9

Ein Zitat aus Wikipedia .

Es zeigt, wie stark die Abweichung vom "Durchschnitt" (Mittelwert oder erwarteter / budgetierter Wert) ist. Eine niedrige Standardabweichung zeigt an, dass die Datenpunkte in der Regel sehr nahe am Mittelwert liegen, während eine hohe Standardabweichung darauf hinweist, dass die Daten über einen großen Wertebereich verteilt sind.


5

Wenn wir eine Variable beschreiben, fassen wir sie normalerweise mit zwei Maßen zusammen: einem Maß für den Mittelpunkt und einem Maß für die Streuung. Zu den gebräuchlichen Mittelpunktsmaßen gehören Mittelwert, Median und Modus. Ein gängiges Maß für die Streuung sind die Varianz und der Interquartilbereich.

Die Varianz (dargestellt durch das auf die Zweierpotenz angehobene griechische Sigma in Kleinbuchstaben) wird üblicherweise verwendet, wenn der Mittelwert angegeben wird. Die Varianz ist die durchschnittliche quadratische Abweichung der Variablen. Die Abweichung wird berechnet, indem der Mittelwert von jeder Beobachtung abgezogen wird. Dies wird quadriert, da die Summe andernfalls Null wäre und das Quadrieren dieses Problem beseitigt, während die relative Größe der Abweichungen beibehalten wird. Das Problem bei der Verwendung der Variation als Maß für die Streuung besteht darin, dass sie in quadratischen Einheiten angegeben wird. Wenn zum Beispiel unsere interessierende Variable die Höhe in Zoll ist, wird die Varianz in Quadratzoll angegeben, was wenig Sinn macht. Die Standardabweichung (dargestellt durch das griechische Sigma in Kleinbuchstaben) ist die Quadratwurzel der Varianz und gibt das Maß der Streuung auf die ursprünglichen Einheiten zurück.

Bei der Verwendung der Standardabweichung muss auf Ausreißer geachtet werden, da sie die Standardabweichung (und den Mittelwert) verzerren, da sie keine widerstandsfähigen Ausbreitungsmaße darstellen. Ein einfaches Beispiel wird diese Eigenschaft veranschaulichen. Der Mittelwert meiner schrecklichen Cricket-Schlagzahlen von 13, 14, 16, 23, 26, 28, 33, 39 und 61 ist 28,11. Wenn wir 61 als Ausreißer betrachten und löschen, wäre der Mittelwert 24.


1
σ2σ

2

So würde ich diese Frage anhand eines Diagramms beantworten.

Nehmen wir an, wir wiegen 30 Katzen und berechnen das Durchschnittsgewicht. Dann erstellen wir ein Streudiagramm mit dem Gewicht auf der y-Achse und der Katzenidentität auf der x-Achse. Das Durchschnittsgewicht kann als horizontale Linie eingezeichnet werden. Wir können dann vertikale Linien zeichnen, die jeden Datenpunkt mit der Mittellinie verbinden - dies sind die Abweichungen jedes Datenpunkts vom Mittelwert und wir nennen sie Residuen. Nun, diese Residuen können nützlich sein, weil sie uns etwas über die Verbreitung der Daten erzählen können: Wenn es viele große Residuen gibt, variieren die Massen der Katzen stark. Umgekehrt, wenn die Reste hauptsächlich klein sind, sind die Katzen ziemlich dicht um das Durchschnittsgewicht gruppiert. Wenn wir also eine Metrik haben könnten, die uns den Durchschnitt sagtDie Länge eines Residuums in diesem Datensatz ist ein praktischer Weg, um anzuzeigen, wie weit die Daten verteilt sind. Die Standardabweichung ist effektiv die Länge des durchschnittlichen Rests.

Ich würde darauf aufbauen, indem ich die Berechnung für sd gebe und erkläre, warum wir Quadratwurzel und dann Quadratwurzel bilden (ich mag Vaibhavs kurze und süße Erklärung). Dann würde ich die Probleme von Ausreißern erwähnen, wie es Graham in seinem letzten Absatz tut.


1

Handelt es sich bei den erforderlichen Informationen um die Verteilung von Daten über den Mittelwert, bietet sich die Standardabweichung an.

Die Summe der Differenz jedes Wertes zum Mittelwert ist Null (offensichtlich, da die Werte gleichmäßig um den Mittelwert verteilt sind), daher werden die Differenzen quadriert, um negative Werte in positive Werte umzuwandeln, über die Grundgesamtheit zu summieren und deren Werte zu berechnen Quadratwurzel. Dieser Wert wird dann durch die Anzahl der Stichproben (oder die Größe der Grundgesamtheit) dividiert. Dies ergibt die Standardabweichung.


"Wenn wir dann jeden Unterschied ausgleichen ..." Wir könnten den absoluten Wert nehmen, um auch negative Werte loszuwerden. Warum ist Quadrieren eine bessere Methode, da wir am Ende eine Quadratwurzel ziehen müssen? Warum nicht einfach die absoluten Werte der Abweichungen summieren?
Dilip Sarwate

Gesehen dieses? link
Vaibhav Garg

45

1
@ DilipSarwate, bei allem Respekt, Proof by Authority beeindruckt mich nicht. Die Annahme, dass "daher" "maßgebend" ist, ist ein "Strohmann", den ich lieber ignorieren würde. Der Detaillierungsgrad einer bestimmten Aussage entspricht der Neigung und / oder der pädagogischen Bedeutung derselben in einem bestimmten Kontext. Ich würde annehmen, dass eine Person, die fragt "Was ist eine Standardabweichung, wie ist es ... so weiter?" möchte nicht mit strengen mathematischen Definitionen derselben belastet werden. Die Vereinfachung ist absichtlich und, wie ich Ihnen versichern kann, nicht darauf zurückzuführen, dass Sie sich dessen nicht bewusst sind.
Vaibhav Garg

1
Und was ist, bitte sagen Sie, anders als ein Beweis durch Autorität, der Sie nicht beeindruckt? Es gibt keinen logischen Grund, warum Quadrieren automatisch die Lösung des Problems ist, wie Ihr "daher" impliziert.
Dilip Sarwate

1

Ich stelle es mir gerne so vor: Die Standardabweichung ist der durchschnittliche Abstand vom Durchschnitt . Dies ist konzeptionell nützlicher als mathematisch nützlich, aber es ist eine nette Art, es den Uneingeweihten zu erklären.


0

Eine Standardabweichung ist die Quadratwurzel des zweiten zentralen Moments einer Verteilung. Ein zentraler Moment ist die erwartete Differenz zum erwarteten Wert der Ausschüttung. Ein erstes zentrales Moment wäre normalerweise 0, daher definieren wir ein zweites zentrales Moment als den erwarteten Wert des quadratischen Abstands einer Zufallsvariablen von ihrem erwarteten Wert.

Um es auf eine Skala zu bringen, die mehr mit den ursprünglichen Beobachtungen übereinstimmt, nehmen wir die Quadratwurzel dieses zweiten zentralen Moments und nennen es die Standardabweichung.

Standardabweichung ist eine Eigenschaft einer Population. Es misst, wie viel durchschnittliche "Streuung" es zu dieser Population gibt. Sind alle Beobachtungen um den Mittelwert gruppiert oder sind sie weit verbreitet?

Um die Standardabweichung einer Population abzuschätzen, berechnen wir häufig die Standardabweichung einer "Stichprobe" von dieser Population. Dazu nehmen Sie Beobachtungen aus dieser Grundgesamtheit, berechnen einen Mittelwert dieser Beobachtungen und berechnen dann die Quadratwurzel der durchschnittlichen quadratischen Abweichung von diesem "Stichprobenmittelwert".

Um einen unverzerrten Schätzer der Varianz zu erhalten, berechnen Sie nicht die durchschnittliche quadratische Abweichung vom Stichprobenmittelwert, sondern dividieren durch (N-1), wobei N die Anzahl der Beobachtungen in Ihrer Stichprobe ist. Es ist zu beachten, dass diese "Stichprobenstandardabweichung" kein unverzerrter Schätzer der Standardabweichung ist, sondern das Quadrat der "Stichprobenstandardabweichung" ein unverzerrter Schätzer der Varianz der Grundgesamtheit ist.


6
Dies ist eine unglaublich unklare Antwort. Bitte versuchen Sie, auf Englisch zu schreiben.
Neil McGuigan

1
vielleicht so. ist eine Person, die diese Frage stellt, eine Person, die von der Straße hereinkam, oder eine Person, die mindestens ein Statistikbuch geöffnet hat. Jemandem zu sagen, dass die Standardabweichung nur die Quadratwurzel der Varianz ist, wirft die Frage auf.
Baltimark

-1

Ich habe die Standardabweichung am besten verstanden, wenn ich an einen Friseur denke! (Damit dieses Beispiel funktioniert, müssen Sie Daten von einem Friseur sammeln und ihre Haarschneidegeschwindigkeit ermitteln.)

Es dauert durchschnittlich 30 Minuten, bis der Friseur die Haare einer Person geschnitten hat.

Angenommen, Sie führen die Berechnung durch (die meisten Softwarepakete übernehmen dies für Sie) und stellen fest, dass die Standardabweichung 5 Minuten beträgt. Es bedeutet folgendes:

  • Die Friseurin schneidet 68% ihrer Kunden innerhalb von 25 und 35 Minuten
  • Die Friseurin schneidet 96% ihrer Kunden innerhalb von 20 und 40 Minuten

Woher weiß ich das? Sie müssen sich die normale Kurve ansehen, bei der 68% innerhalb von 1 Standardabweichung und 96% innerhalb von 2 Standardabweichungen des Mittelwerts liegen (in diesem Fall 30 Minuten). Sie addieren oder subtrahieren also die Standardabweichung vom Mittelwert.

Wenn wie in diesem Fall Konsistenz gewünscht wird, ist die Standardabweichung umso besser, je kleiner sie ist. In diesem Fall verbringt der Friseur maximal etwa 40 Minuten mit einem bestimmten Kunden. Sie müssen sich schnell die Haare schneiden, um eine erfolgreiche Limousine zu leiten!


Ich glaube nicht, dass Sie Ihre Antwort korrigieren, Adhesh. Sie haben hier ein paar widersprüchliche Informationen. Sehen Sie, ob Sie meinen Änderungen zustimmen, ok?
Rolando2

1
Sie haben die Interpretation der Standardabweichung nur bei der Normalverteilung beschrieben. Die 68% -Regel und (und die 95% -Regel) gelten nur für normal verteilte Daten. Geben Sie zumindest an, dass die beiden Aufzählungspunkte nur dann zutreffen, wenn die Haarschnitte einer Normalverteilung folgen.
Makro

Makro, ich habe die Normalkurve erwähnt und es ist selbstverständlich, dass die Daten einer Normalverteilung folgen, wenn Sie die Normalkurve verwenden.
Adhesh Josh

@ Rolando2 Ich scheine nicht zu verstehen, was mit Adhesh Erklärung falsch ist
Amarald

@Amarald - hast du auf "Jan 31 at 1:06" geklickt, um die Versionen vor und nach der Bearbeitung zu sehen? Ich denke, dass die Antwort nachher stärker ist, obwohl Makro auch einen wichtigen Punkt macht.
Rolando2
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.