Die einzige Möglichkeit , die Populationsvarianz zu ermitteln, besteht darin, die gesamte Population zu messen.
Eine Messung der gesamten Bevölkerung ist jedoch häufig nicht möglich. Es erfordert Ressourcen wie Geld, Werkzeuge, Personal und Zugang. Aus diesem Grund beproben wir Populationen; das misst eine Teilmenge der Bevölkerung. Der Stichprobenprozess sollte sorgfältig und mit dem Ziel konzipiert werden, eine Stichprobenpopulation zu erstellen, die für die Population repräsentativ ist. Geben Sie zwei wichtige Überlegungen an - Stichprobengröße und Stichprobenverfahren.
Spielzeugbeispiel: Sie möchten die Gewichtsabweichung für die erwachsene Bevölkerung Schwedens schätzen. Es gibt ungefähr 9,5 Millionen Schweden, daher ist es unwahrscheinlich, dass Sie alle messen können. Daher müssen Sie eine Stichprobenpopulation messen, anhand derer Sie die tatsächliche Varianz innerhalb der Population abschätzen können.
Sie machen sich auf den Weg, um die schwedische Bevölkerung zu beproben. Dazu stehen Sie in der Stockholmer Innenstadt und stehen zufällig direkt vor der beliebten fiktiven schwedischen Burger-Kette Burger Kungen . Tatsächlich regnet es und es ist kalt (es muss Sommer sein), also stehen Sie im Restaurant. Hier wiegen Sie vier Personen.
Die Chancen stehen gut, dass Ihre Stichprobe die schwedische Bevölkerung nicht sehr gut widerspiegelt. Was Sie haben, ist eine Auswahl von Leuten in Stockholm, die in einem Burger-Restaurant sind. Dies ist eine schlechte Stichprobentechnik, da das Ergebnis wahrscheinlich dadurch verzerrt wird, dass die von Ihnen zu schätzende Population nicht angemessen dargestellt wird. Darüber hinaus haben Sie eine kleine StichprobengrößeSie haben also ein hohes Risiko, vier Personen auszuwählen, die sich in den Extremen der Bevölkerung befinden. entweder sehr leicht oder sehr schwer. Wenn Sie 1000 Personen befragt haben, ist es weniger wahrscheinlich, dass Sie einen Stichprobenfehler verursachen. Es ist weitaus weniger wahrscheinlich, 1000 ungewöhnliche Personen auszuwählen, als vier ungewöhnliche. Eine größere Stichprobe würde Ihnen zumindest eine genauere Schätzung des Mittelwerts und der Varianz des Gewichts bei den Kunden von Burger Kungen geben.
Das Histogramm zeigt den Effekt der Stichprobentechnik. Die Grauverteilung könnte die Bevölkerung Schwedens darstellen, die nicht bei Burger Kungen isst (Mittelwert 85 kg), während das Rot die Bevölkerung der Kunden von Burger Kungen (Mittelwert 100 kg) darstellen könnte. , und die blauen Striche könnten die vier Personen sein, die Sie probieren. Eine korrekte Probenahmetechnik müsste die Bevölkerung fair wiegen, und in diesem Fall sollten ~ 75% der Bevölkerung, also 75% der gemessenen Proben, keine Kunden von Burger Kungen sein.
Dies ist ein großes Problem bei vielen Umfragen. Beispielsweise werden Personen, die wahrscheinlich auf Umfragen zur Kundenzufriedenheit oder auf Meinungsumfragen bei Wahlen antworten, in der Regel überproportional von Personen mit extremen Ansichten vertreten. Menschen mit weniger starken Meinungen neigen dazu, sie eher zurückhaltend auszudrücken.
Beim Testen von Hypothesen geht es beispielsweise ( nicht immer ) darum, zu testen, ob sich zwei Populationen voneinander unterscheiden. ZB wiegen Kunden von Burger Kungen mehr als Schweden, die nicht bei Burger Kungen essen? Die Fähigkeit, dies genau zu testen, hängt von der richtigen Probenahmetechnik und einer ausreichenden Probengröße ab.
R-Code zum Testen machen all dies möglich:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
Ergebnisse:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024