Meine Intuition ist, dass die Standardabweichung ist: ein Maß für die Verbreitung der Daten.
Sie haben ein gutes Argument dafür, dass es von unserer zugrunde liegenden Annahme für die Verteilung der Daten abhängt, ob sie breit oder eng ist.
Vorsichtsmaßnahme: Ein Maß für die Streuung ist am hilfreichsten, wenn die Verteilung Ihrer Daten symmetrisch zum Mittelwert ist und eine Varianz aufweist, die der Normalverteilung relativ nahe kommt. (Dies bedeutet, dass es ungefähr normal ist.)
In dem Fall, in dem die Daten ungefähr normal sind, hat die Standardabweichung eine kanonische Interpretation:
- Region: Stichprobenmittelwert +/- 1 Standardabweichung, enthält ca. 68% der Daten
- Region: Stichprobenmittelwert +/- 2 Standardabweichung, enthält ca. 95% der Daten
- Region: Stichprobenmittelwert +/- 3 Standardabweichung, enthält ca. 99% der Daten
(siehe erste Grafik im Wiki )
Dies bedeutet, dass, wenn wir wissen, dass der Bevölkerungsmittelwert 5 und die Standardabweichung 2,83 beträgt und wir davon ausgehen, dass die Verteilung ungefähr normal ist, ich Ihnen sagen würde, dass ich ziemlich sicher bin, dass, wenn wir (sehr) viele Beobachtungen machen, nur 5% dies tun werden kleiner als 0,4 = 5 - 2 * 2,3 oder größer als 9,6 = 5 + 2 * 2,3 sein.
Beachten Sie, wie sich die Standardabweichung auf unser Konfidenzintervall auswirkt. (je breiter, desto unsicherer)
Darüber hinaus wissen Sie im allgemeinen Fall, dass die Daten nicht annähernd normal, aber immer noch symmetrisch sind, dass es einige für die:α
- Region: Stichprobenmittelwert +/- Standardabweichung, enthält ca. 95% der Datenα
Sie können entweder aus einer Teilstichprobe lernen oder annehmen. Dies gibt Ihnen häufig eine gute Faustregel, um in Ihrem Kopf zu berechnen, welche zukünftigen Beobachtungen zu erwarten sind oder welche der neuen Beobachtungen als solche betrachtet werden können Ausreißer. (Beachten Sie jedoch die Einschränkung!)α = 2αα = 2
Ich verstehe nicht, wie du es interpretieren sollst. Bedeutet 2,83, dass die Werte sehr breit gestreut sind, oder sind sie alle eng um den Mittelwert gruppiert?
Ich denke, jede Frage, die "wide or tight" gestellt wird, sollte auch Folgendes enthalten: "in Bezug auf was?". Ein Vorschlag könnte sein, eine bekannte Distribution als Referenz zu verwenden. Abhängig vom Kontext kann es nützlich sein, über Folgendes nachzudenken: "Ist es viel breiter oder enger als ein Normal / Poisson?".
EDIT: Basierend auf einem nützlichen Hinweis in den Kommentaren ein weiterer Aspekt zur Standardabweichung als Abstandsmaß.
Eine weitere Intuition für die Nützlichkeit der Standardabweichung ist, dass es sich um ein Abstandsmaß zwischen den und ihrem Mittelwert :sNx1, … , XNx¯
sN= 1N∑Ni = 1( xich- x¯¯¯)2-------------√
Zum Vergleich wird der mittlere quadratische Fehler (MSE), eine der beliebtesten Fehlermaßnahmen in der Statistik, wie folgt definiert:
MSE = 1n∑ni = 1( Yich^- Yich)2
Die Fragen können aufgeworfen werden, warum die obige Distanzfunktion? Warum zum Beispiel quadratische Abstände und keine absoluten Abstände? Und warum ziehen wir die Quadratwurzel?
Quadratische Distanz- oder Fehlerfunktionen haben den Vorteil, dass wir sie sowohl unterscheiden als auch leicht minimieren können. Was die Quadratwurzel anbelangt, trägt dies zur Interpretierbarkeit bei, da der Fehler zurück in die Skala unserer beobachteten Daten konvertiert wird.