Was ist eine Standardabweichung, wie wird sie berechnet und wie wird sie in der Statistik verwendet?
Was ist eine Standardabweichung, wie wird sie berechnet und wie wird sie in der Statistik verwendet?
Antworten:
Die Standardabweichung ist eine Zahl, die die "Streuung" oder "Streuung" eines Datensatzes darstellt. Es gibt andere Maßnahmen zur Streuung, wie z. B. Reichweite und Varianz.
Hier sind einige Beispieldatensätze und ihre Standardabweichungen:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
Die obigen Datensätze haben den gleichen Mittelwert.
Abweichung bedeutet "Abstand vom Mittelwert".
"Standard" bedeutet hier "standardisiert", was bedeutet, dass die Standardabweichung und der Mittelwert im Gegensatz zur Varianz in denselben Einheiten angegeben sind.
Wenn beispielsweise die mittlere Höhe 2 Meter beträgt , kann die Standardabweichung 0,3 Meter betragen , während die Varianz im Quadrat 0,09 Meter beträgt .
Es ist praktisch zu wissen, dass mindestens 75% der Datenpunkte immer innerhalb von 2 Standardabweichungen des Mittelwerts liegen (oder ungefähr 95%, wenn die Verteilung normal ist).
Wenn beispielsweise der Mittelwert 100 und die Standardabweichung 15 beträgt, liegen mindestens 75% der Werte zwischen 70 und 130.
Wenn die Verteilung zufällig normal ist, liegen 95% der Werte zwischen 70 und 130.
Im Allgemeinen sind die IQ-Testergebnisse normal verteilt und haben einen Durchschnitt von 100. Jemand, der "sehr hell" ist, weist zwei Standardabweichungen über dem Mittelwert auf, was ein IQ-Testergebnis von 130 bedeutet.
Ein Zitat aus Wikipedia .
Es zeigt, wie stark die Abweichung vom "Durchschnitt" (Mittelwert oder erwarteter / budgetierter Wert) ist. Eine niedrige Standardabweichung zeigt an, dass die Datenpunkte in der Regel sehr nahe am Mittelwert liegen, während eine hohe Standardabweichung darauf hinweist, dass die Daten über einen großen Wertebereich verteilt sind.
Wenn wir eine Variable beschreiben, fassen wir sie normalerweise mit zwei Maßen zusammen: einem Maß für den Mittelpunkt und einem Maß für die Streuung. Zu den gebräuchlichen Mittelpunktsmaßen gehören Mittelwert, Median und Modus. Ein gängiges Maß für die Streuung sind die Varianz und der Interquartilbereich.
Die Varianz (dargestellt durch das auf die Zweierpotenz angehobene griechische Sigma in Kleinbuchstaben) wird üblicherweise verwendet, wenn der Mittelwert angegeben wird. Die Varianz ist die durchschnittliche quadratische Abweichung der Variablen. Die Abweichung wird berechnet, indem der Mittelwert von jeder Beobachtung abgezogen wird. Dies wird quadriert, da die Summe andernfalls Null wäre und das Quadrieren dieses Problem beseitigt, während die relative Größe der Abweichungen beibehalten wird. Das Problem bei der Verwendung der Variation als Maß für die Streuung besteht darin, dass sie in quadratischen Einheiten angegeben wird. Wenn zum Beispiel unsere interessierende Variable die Höhe in Zoll ist, wird die Varianz in Quadratzoll angegeben, was wenig Sinn macht. Die Standardabweichung (dargestellt durch das griechische Sigma in Kleinbuchstaben) ist die Quadratwurzel der Varianz und gibt das Maß der Streuung auf die ursprünglichen Einheiten zurück.
Bei der Verwendung der Standardabweichung muss auf Ausreißer geachtet werden, da sie die Standardabweichung (und den Mittelwert) verzerren, da sie keine widerstandsfähigen Ausbreitungsmaße darstellen. Ein einfaches Beispiel wird diese Eigenschaft veranschaulichen. Der Mittelwert meiner schrecklichen Cricket-Schlagzahlen von 13, 14, 16, 23, 26, 28, 33, 39 und 61 ist 28,11. Wenn wir 61 als Ausreißer betrachten und löschen, wäre der Mittelwert 24.
So würde ich diese Frage anhand eines Diagramms beantworten.
Nehmen wir an, wir wiegen 30 Katzen und berechnen das Durchschnittsgewicht. Dann erstellen wir ein Streudiagramm mit dem Gewicht auf der y-Achse und der Katzenidentität auf der x-Achse. Das Durchschnittsgewicht kann als horizontale Linie eingezeichnet werden. Wir können dann vertikale Linien zeichnen, die jeden Datenpunkt mit der Mittellinie verbinden - dies sind die Abweichungen jedes Datenpunkts vom Mittelwert und wir nennen sie Residuen. Nun, diese Residuen können nützlich sein, weil sie uns etwas über die Verbreitung der Daten erzählen können: Wenn es viele große Residuen gibt, variieren die Massen der Katzen stark. Umgekehrt, wenn die Reste hauptsächlich klein sind, sind die Katzen ziemlich dicht um das Durchschnittsgewicht gruppiert. Wenn wir also eine Metrik haben könnten, die uns den Durchschnitt sagtDie Länge eines Residuums in diesem Datensatz ist ein praktischer Weg, um anzuzeigen, wie weit die Daten verteilt sind. Die Standardabweichung ist effektiv die Länge des durchschnittlichen Rests.
Ich würde darauf aufbauen, indem ich die Berechnung für sd gebe und erkläre, warum wir Quadratwurzel und dann Quadratwurzel bilden (ich mag Vaibhavs kurze und süße Erklärung). Dann würde ich die Probleme von Ausreißern erwähnen, wie es Graham in seinem letzten Absatz tut.
Handelt es sich bei den erforderlichen Informationen um die Verteilung von Daten über den Mittelwert, bietet sich die Standardabweichung an.
Die Summe der Differenz jedes Wertes zum Mittelwert ist Null (offensichtlich, da die Werte gleichmäßig um den Mittelwert verteilt sind), daher werden die Differenzen quadriert, um negative Werte in positive Werte umzuwandeln, über die Grundgesamtheit zu summieren und deren Werte zu berechnen Quadratwurzel. Dieser Wert wird dann durch die Anzahl der Stichproben (oder die Größe der Grundgesamtheit) dividiert. Dies ergibt die Standardabweichung.
Eine Standardabweichung ist die Quadratwurzel des zweiten zentralen Moments einer Verteilung. Ein zentraler Moment ist die erwartete Differenz zum erwarteten Wert der Ausschüttung. Ein erstes zentrales Moment wäre normalerweise 0, daher definieren wir ein zweites zentrales Moment als den erwarteten Wert des quadratischen Abstands einer Zufallsvariablen von ihrem erwarteten Wert.
Um es auf eine Skala zu bringen, die mehr mit den ursprünglichen Beobachtungen übereinstimmt, nehmen wir die Quadratwurzel dieses zweiten zentralen Moments und nennen es die Standardabweichung.
Standardabweichung ist eine Eigenschaft einer Population. Es misst, wie viel durchschnittliche "Streuung" es zu dieser Population gibt. Sind alle Beobachtungen um den Mittelwert gruppiert oder sind sie weit verbreitet?
Um die Standardabweichung einer Population abzuschätzen, berechnen wir häufig die Standardabweichung einer "Stichprobe" von dieser Population. Dazu nehmen Sie Beobachtungen aus dieser Grundgesamtheit, berechnen einen Mittelwert dieser Beobachtungen und berechnen dann die Quadratwurzel der durchschnittlichen quadratischen Abweichung von diesem "Stichprobenmittelwert".
Um einen unverzerrten Schätzer der Varianz zu erhalten, berechnen Sie nicht die durchschnittliche quadratische Abweichung vom Stichprobenmittelwert, sondern dividieren durch (N-1), wobei N die Anzahl der Beobachtungen in Ihrer Stichprobe ist. Es ist zu beachten, dass diese "Stichprobenstandardabweichung" kein unverzerrter Schätzer der Standardabweichung ist, sondern das Quadrat der "Stichprobenstandardabweichung" ein unverzerrter Schätzer der Varianz der Grundgesamtheit ist.
Ich habe die Standardabweichung am besten verstanden, wenn ich an einen Friseur denke! (Damit dieses Beispiel funktioniert, müssen Sie Daten von einem Friseur sammeln und ihre Haarschneidegeschwindigkeit ermitteln.)
Es dauert durchschnittlich 30 Minuten, bis der Friseur die Haare einer Person geschnitten hat.
Angenommen, Sie führen die Berechnung durch (die meisten Softwarepakete übernehmen dies für Sie) und stellen fest, dass die Standardabweichung 5 Minuten beträgt. Es bedeutet folgendes:
Woher weiß ich das? Sie müssen sich die normale Kurve ansehen, bei der 68% innerhalb von 1 Standardabweichung und 96% innerhalb von 2 Standardabweichungen des Mittelwerts liegen (in diesem Fall 30 Minuten). Sie addieren oder subtrahieren also die Standardabweichung vom Mittelwert.
Wenn wie in diesem Fall Konsistenz gewünscht wird, ist die Standardabweichung umso besser, je kleiner sie ist. In diesem Fall verbringt der Friseur maximal etwa 40 Minuten mit einem bestimmten Kunden. Sie müssen sich schnell die Haare schneiden, um eine erfolgreiche Limousine zu leiten!