Viel üben, Laien über Standardabweichung und Varianz zu unterrichten.
TL; DR; Es ist so etwas wie ein Durchschnitt der Entfernungen vom Durchschnitt. (Das ist ein bisschen verwirrend und irreführend in solch einer knappen Version. Lesen Sie also den ganzen Artikel.)
Ich nehme an, der Laie kennt sich mit Durchschnitt aus. Ich halte einen Vortrag über die Wichtigkeit, SD zu kennen und Fehler abzuschätzen (siehe PS unten). Dann verspreche ich, dass keine hohen mathematischen oder statistischen Kenntnisse verwendet werden - nur trockenes Denken und reine Logik.
Das Problem. Nehmen wir an, wir haben ein Thermometer (ich wähle ein Messgerät, je nachdem, was näher am Gehör liegt).
Wir haben N Messungen mit der gleichen Temperatur und dem gleichen Thermometer durchgeführt und dabei so etwas wie 36,5, 35,9, 37,0, 36,6, ... festgestellt (siehe Bild). Wir wissen, dass die reale Temperatur die gleiche war, aber das Thermometer liegt uns bei jeder Messung ein bisschen an.
Wie können wir abschätzen, wie viel uns dieser kleine Abschaum anbelangt?
Wir können den Durchschnitt berechnen (siehe rote Linie auf dem Bild unten). Können wir das glauben? Hat es auch nach der Mittelwertbildung genug Präzision für unsere Bedürfnisse?
Der einfachste Ansatz . Wir können den entferntesten Punkt nehmen, den Abstand zwischen ihm und dem Durchschnitt (rote Linie) berechnen und sagen, dass uns das Thermometer so liegt, weil es der maximale Fehler ist, den wir sehen. Man könnte vermuten, es ist nicht die beste Schätzung. Wenn wir uns das Bild ansehen, liegen die meisten Punkte um den Durchschnitt. Wie können wir uns nur für einen Punkt entscheiden? Eigentlich kann man Numerierungsgründe üben, warum eine solche Schätzung grob und normalerweise schlecht ist.
Varianz . Dann ... nehmen wir alle Entfernungen und berechnen die durchschnittliche Entfernung !
( xich- x¯)X¯Xich
Dann könnte man sich vorstellen, dass die Formel der Durchschnittsentfernung alles summiert und durch N dividiert:
∑ ( xich- x¯)N
Aber es gibt ein Problem. Wir können leicht sehen, z. dass 36.4 und 36.8 den gleichen Abstand von 36.6 haben. aber wenn wir die Werte in die obige Formel setzen, erhalten wir -0,2 und +0,2 und ihre Summe ist gleich 0, was nicht das ist, was wir wollen.
Wie wird man das Schild los? (An dieser Stelle sagen Laien normalerweise "Nimm den absoluten Wert" und bekommen den Vorschlag, dass "ein absoluter Wert ein wenig künstlich ist, was ist ein anderer Weg?"). Wir können die Werte quadrieren! Dann lautet die Formel:
∑ ( xich- x¯)2N
Diese Formel wird in der Statistik als "Varianz" bezeichnet. Und es passt viel besser, die Streuung unserer Thermometerwerte (oder was auch immer) abzuschätzen, als nur die maximale Entfernung zu nehmen.
° C2° F2
∑ ( xich-x¯)2N----------√
σ
Zu diesem Zeitpunkt versteht ein Laie ziemlich genau, wie wir hierher kommen und wie die Standardabweichung / Varianz funktioniert. Ab diesem Punkt gehe ich normalerweise zur Regel 68–95–99.7 und beschreibe auch Stichproben und Grundgesamtheit, Standardfehler und Standardabweichung usw.
PS Wichtigkeit des Wissens über SD-Talk-Beispiel:
Nehmen wir an, Sie haben ein Messgerät, das 1 000 000 $ gekostet hat . Und es gibt Ihnen die Antwort: 42. Glaubst du, man hat 1 000 000 $ für 42 bezahlt ? Phooey! Man bezahlte 1000 000 für die Genauigkeit dieser Antwort. Denn Wert - kostet nichts, ohne seinen Fehler zu kennen. Sie bezahlen für den Fehler, nicht den Wert. Hier ist ein gutes Beispiel aus dem Leben.
Im alltäglichen Leben verwenden wir meistens ein Lineal, um die Entfernung zu messen. Das Lineal gibt Ihnen eine Genauigkeit von etwa einem Millimeter (wenn Sie nicht in den USA sind). Was ist, wenn Sie über den Millimeter hinaus etwas mit einer Genauigkeit von 0,1 mm messen müssen? - Sie würden wahrscheinlich einen Bremssattel verwenden. Nun ist es leicht zu überprüfen, dass ein billiges Lineal (aber immer noch millimetergenau) Cent kostet, während ein guter Bremssattel Zehntel Dollar kostet. 2 Größen eines Preises für 1 Größe der Präzision. Und das ist sehr üblich, wie viel Sie für einen Fehler bezahlen.