Wird der Mittelwert eines Satzes von Mitteln immer der gleiche sein wie der Mittelwert, der aus dem gesamten Satz von Rohdaten erhalten wird?

10

Wenn ich den Mittelwert für 4 Datensätze (die unterschiedliche Stichprobengrößen haben) berechnet habe, kann ich dann einen "Gesamtmittelwert" erhalten, indem ich den "Mittelwert der Mittelwerte" berechne? Wenn ja, ist dieser "Mittelwert der Mittelwerte" derselbe, als hätte ich die Daten aus allen 4 Sätzen kombiniert und dann den Mittelwert berechnet?

mathematical-statistics weighted-mean mean

— user66429
quelle

3

Hast du es in beide Richtungen versucht ;-)? (Nein.)

— Gung - Reinstate Monica

14

Nein, der Durchschnitt der Mittelwerte von Teilmengen entspricht nicht dem Durchschnitt der gesamten Menge. Dies ist nur dann der gleiche Wert, wenn die Teilmengen dieselbe Stichprobengröße haben. Wenn Sie den Durchschnitt der Bevölkerung erhalten möchten, multiplizieren Sie jeden Durchschnitt mit der Größe der Stichprobe, aus der er stammt, um die Gesamtbevölkerung zu erhalten, und dividieren Sie ihn durch die Gesamtzahl der Datenpunkte (Bevölkerungsgröße).

Sehen Sie sich das Beispiel mit den Schlagdurchschnitten in Simpsons Paradoxon an, um zu veranschaulichen, warum die Mittelung der Durchschnittswerte normalerweise nicht funktioniert.

— Bill die Eidechse
quelle

2

Probieren wir es aus und sehen, ob wir es herausfinden können. Das folgende Beispiel ist codiert R, das kostenlos ist und Sie das Beispiel reproduzieren lässt, aber hoffentlich ist der Code selbsterklärend:

group1 = c(1,2,3)
group2 = c(4,5,6,7,8,9)
mean(group1)
#  2
mean(group2)
#  6.5
mean(c(group1, group2))
#  5
mean(c(mean(group1), mean(group2)))
#  4.25

Wir sehen also, dass Sie sicherlich den Mittelwert der Mittelwerte berechnen können, aber der Mittelwert der Mittelwerte und der Mittelwert aller Rohdaten stimmen nicht überein. Wir können auch einen gewichteten Durchschnitt versuchen, indem wir den Vorschlag von @ BilltheLizard verwenden, die Stichprobengröße jeder Gruppe als Gewicht zu verwenden (die Gewichte sind mit dem wArgument angegeben):

weighted.mean(c(mean(group1), mean(group2)), w=c(3,6))
#  5

Dies gibt uns jetzt die gleiche Antwort.

— gung - Monica wieder einsetzen
quelle

1

Wenn Sie eine Menge von Gruppen mit den jeweiligen Größen und bedeuten, ist im Allgemeinen der Gesamtstichprobenmittelwert aller Daten :: $m$ $n_1,...,n_m$ $\bar{x}_1,...,\bar{x}_m$

\bar{x} = \sum_{k = 1}^{m} \frac{n_{k}}{n} \cdot {\bar{x}}_{k} n = \sum_{i = 1}^{m} n_{k} .

$\bar{x} = \sum_{k=1}^m \frac{n_k}{n} \cdot \bar{x}_k \quad \quad \quad \quad \quad n = \sum_{i=1}^m n_k.$

Somit ist der Gesamtmittelwert immer ein gewichteter Durchschnitt der Stichprobenmittelwerte der Gruppen. In dem speziellen Fall, in dem alle Gruppen dieselbe Größe haben ( ), sind alle Gewichte gleich, und daher ist der Gesamtstichprobenmittelwert der Mittelwert der Gruppenstichprobenmittelwerte. $n_1 = \cdots = n_m$

— Ben - Monica wieder einsetzen
quelle

0

Ich möchte nur ein (extremes) Beispiel geben: Wenn wir in einer Stichprobe eine Trefferquote von (1/10000) und in einem anderen Beispiel eine Trefferquote von (1/2) haben, dann . Im ersten Fall (Mittelwert) haben wir eine "durchschnittliche" Trefferquote von 0,5001 / 2, während wir im zweiten Fall (Mittelwert) 3/10003 haben und diese beiden Zahlen nicht gleich sind. Ob eine angemessener oder korrekter ist, hängt von Ihrem Anwendungsfall ab. $\sum \frac{hit_i}{total_i} \neq \frac{\sum hit_i}{\sum total_i}$

— information_interchange
quelle