Was bedeutet "eigentlich" gepoolte Varianz?

15

Ich bin ein Noob in der Statistik, also könntet ihr mir bitte hier raushelfen.

Meine Frage lautet: Was bedeutet eigentlich gepoolte Varianz ?

Wenn ich im Internet nach einer Formel für gepoolte Varianz suche, finde ich viel Literatur mit der folgenden Formel (zum Beispiel hier: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html) ):

S_{p}^{2} = \frac{S_{1}^{2} (n_{1} - 1) + S_{2}^{2} (n_{2} - 1)}{n_{1} + n_{2} - 2}

$\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation}$

Aber was rechnet es eigentlich ? Denn wenn ich diese Formel verwende, um meine gepoolte Varianz zu berechnen, erhalte ich eine falsche Antwort.

Betrachten Sie beispielsweise die folgenden "übergeordneten Beispiele":

2, 2, 2, 2, 2, 8, 8, 8, 8, 8

$\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation}$

Die Varianz dieser Elternstichprobe ist und ihr Mittelwert ist . $S^2_p=10$ $\bar{x}_p=5$

Angenommen, ich teile dieses übergeordnete Sample in zwei Unter-Samples auf:

Die erste Unterprobe ist 2,2,2,2,2 mit dem Mittelwert und der Varianz . $\bar{x}_1=2$ $S^2_1=0$
Die zweite Unterprobe ist 8,8,8,8,8 mit dem Mittelwert und der Varianz . $\bar{x}_2=8$ $S^2_2=0$

Nun wird unter Verwendung der obigen Formel zur Berechnung der gepoolten / übergeordneten Varianz dieser beiden Unterabtastungen klarerweise Null erzeugt, da $S_1=0$ und $S_2=0$ . Also, was berechnet diese Formel tatsächlich ?

Auf der anderen Seite fand ich nach längerer Ableitung die Formel, die die korrekte Varianz zwischen Pool und Eltern ergibt:

S_{p}^{2} = \frac{S_{1}^{2} (n_{1} - 1) + n_{1} d_{1}^{2} + S_{2}^{2} (n_{2} - 1) + n_{2} d_{2}^{2}}{n_{1} + n_{2} - 1}

$\begin{equation} \label{eq:smartpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + n_1 d_1^2 + S_2^2 (n_2-1) + n_2 d_2^2} {n_1 + n_2 - 1} \end{equation}$

In der obigen Formel ist $d_1=\bar{x_1}-\bar{x}_p$ und $d_2=\bar{x_2}-\bar{x}_p$ .

Eine ähnliche Formel habe ich bei mir gefunden, zum Beispiel hier: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html und auch in Wikipedia. Obwohl ich zugeben muss, dass sie nicht genauso aussehen wie meine.

Was bedeutet gepoolte Varianz eigentlich? Sollte es nicht die Varianz der Elternstichprobe aus den beiden Teilstichproben bedeuten? Oder liege ich hier völlig falsch?

Danke im Voraus.

EDIT 1: Jemand sagt, dass meine beiden obigen Unterproben pathologisch sind, da sie keine Varianz haben. Nun, ich könnte Ihnen ein anderes Beispiel geben. Betrachten Sie dieses übergeordnete Beispiel:

1, 2, 3, 4, 5, 46, 47, 48, 49, 50

$\begin{equation} \label{eq:parentsample2} 1,2,3,4,5,46,47,48,49,50 \end{equation}$

Die Varianz dieser Elternstichprobe beträgt und ihr Mittelwert ist . $S^2_p=564.7$ $\bar{x}_p=25.5$

Angenommen, ich teile dieses übergeordnete Sample in zwei Unter-Samples auf:

Die erste Unterprobe ist 1,2,3,4,5 mit dem Mittelwert und der Varianz . $\bar{x}_1=3$ $S^2_1=2.5$
Die zweite Unterprobe ist 46,47,48,49,50 mit dem Mittelwert und der Varianz . $\bar{x}_2=48$ $S^2_2=2.5$

Wenn Sie nun die "Literaturformel" verwenden, um die gepoolte Varianz zu berechnen, erhalten Sie 2,5, was völlig falsch ist, da die übergeordnete / gepoolte Varianz 564,7 betragen sollte. Wenn Sie stattdessen "meine Formel" verwenden, erhalten Sie die richtige Antwort.

Bitte haben Sie Verständnis, ich verwende hier extreme Beispiele, um den Leuten zu zeigen, dass die Formel tatsächlich falsch ist. Wenn ich "normale Daten" verwende, die nicht viele Variationen aufweisen (Extremfälle), sind die Ergebnisse dieser beiden Formeln sehr ähnlich, und die Differenz kann aufgrund von Rundungsfehlern verworfen werden, nicht weil es sich um die Formel selbst handelt falsch.

variance mean pooling

— Hanciong
quelle

Einige weiterführende Links: stats.stackexchange.com/q/214834/3277 , stats.stackexchange.com/q/12330/3277 , stats.stackexchange.com/q/43159/3277 .

— TTNPHNS

13

Einfach ausgedrückt ist die gepoolte Varianz eine (unvoreingenommene) Schätzung der Varianz innerhalb jeder Stichprobe unter der Annahme / Einschränkung, dass diese Varianzen gleich sind.

Dies wird im Wikipedia-Eintrag für gepoolte Varianz ausführlich erläutert, motiviert und analysiert .

Es wird nicht die Varianz eines neuen "Meta-Samples" geschätzt, das durch Verketten der beiden einzelnen Samples gebildet wird, wie Sie angenommen haben. Wie Sie bereits festgestellt haben, erfordert das Schätzen eine völlig andere Formel.

— Jake Westfall
quelle

Die Annahme der "Gleichheit" (dh, die gleiche Population hat diese Stichproben erfasst) ist im Allgemeinen nicht erforderlich , um zu definieren, was es ist - "gepoolt". Zusammengefasst bedeutet einfach gemittelt, Sammel (siehe meinen Kommentar zu Tim).

— TTNPHNS

@ttnphns Ich denke, die Gleichheitsannahme ist notwendig, um der gepoolten Varianz eine begriffliche Bedeutung zu geben (nach der das OP gefragt hat), die über die verbale Beschreibung der mathematischen Operation hinausgeht, die es für die Stichprobenvarianzen durchführt. Wenn die Populationsabweichungen nicht als gleich angenommen werden, ist unklar, wovon wir die gepoolte Varianz als Schätzung betrachten könnten. Natürlich könnten wir es uns als eine Verschmelzung der beiden Varianzen vorstellen und es dabei belassen, aber das ist kaum aufschlussreich, wenn überhaupt keine Motivation dafür besteht, die Varianzen zu kombinieren.

— Jake Westfall

Jake, angesichts der spezifischen Frage des OP bin ich damit nicht einverstanden, aber ich wollte über die Definition des Wortes "zusammengefasst" sprechen, deshalb habe ich "allgemein" gesagt.

— TTNPHNS

@JakeWestfall Deine Antwort ist die bisher beste Antwort. Vielen Dank. Obwohl mir über eine Sache noch nicht klar ist. Laut Wikipedia ist die gepoolte Varianz eine Methode zur Schätzung der Varianz mehrerer verschiedener Populationen, wenn der Mittelwert jeder Population unterschiedlich sein kann, man aber davon ausgehen kann, dass die Varianz jeder Population gleich ist .

— Hanciong

@JakeWestfall: Wenn wir also die gepoolte Varianz aus zwei verschiedenen Populationen mit unterschiedlichen Mitteln berechnen, was berechnet sie dann tatsächlich? Weil die erste Varianz die Variation in Bezug auf den ersten Mittelwert misst und die zweite Varianz in Bezug auf den zweiten Mittelwert ist. Ich weiß nicht, welche zusätzlichen Informationen durch die Berechnung gewonnen werden können.

— Hanciong

10

Die gepoolte Varianz wird verwendet, um Varianzen aus verschiedenen Stichproben zu kombinieren, indem ihr gewichteter Durchschnitt ermittelt wird, um die "Gesamt" -Varianz zu erhalten. Das Problem bei Ihrem Beispiel ist, dass es sich um einen pathologischen Fall handelt, da jede der Unterproben eine Varianz von Null aufweist. Ein solcher pathologischer Fall hat sehr wenig mit den Daten zu tun, auf die wir normalerweise stoßen, da es immer eine gewisse Variabilität gibt, und wenn es keine Variabilität gibt, kümmern wir uns nicht um solche Variablen, da sie keine Informationen enthalten. Sie müssen beachten, dass dies eine sehr einfache Methode ist und dass es kompliziertere Methoden zum Schätzen der Varianz in hierarchischen Datenstrukturen gibt, die für solche Probleme nicht anfällig sind.

$n$ $k$ $x_{1,1},x_{2,1},\dots,x_{n-1,k},x_{n,k}$ $i$ $x_{i,j}$ $j$ -th index steht für Gruppenindizes. Es sind mehrere Szenarien möglich. Sie können davon ausgehen, dass alle Punkte aus derselben Verteilung stammen (der Einfachheit halber nehmen wir eine Normalverteilung an).

\begin{matrix} (1) & x_{i, j} \sim N (μ, σ^{2}) \end{matrix}

$x_{i,j} \sim \mathcal{N}(\mu, \sigma^2) \tag{1}$

Sie können davon ausgehen, dass jede Unterprobe ihren eigenen Mittelwert hat

\begin{matrix} (2) & x_{i, j} \sim N (μ_{j}, σ^{2}) \end{matrix}

$x_{i,j} \sim \mathcal{N}(\mu_j, \sigma^2) \tag{2}$

oder seine eigene Varianz

\begin{matrix} (3) & x_{i, j} \sim N (μ, σ_{j}^{2}) \end{matrix}

$x_{i,j} \sim \mathcal{N}(\mu, \sigma^2_j) \tag{3}$

oder jeder von ihnen hat seine eigenen, unterschiedlichen Parameter

\begin{matrix} (4) & x_{i, j} \sim N (μ_{j}, σ_{j}^{2}) \end{matrix}

$x_{i,j} \sim \mathcal{N}(\mu_j, \sigma^2_j) \tag{4}$

Abhängig von Ihren Annahmen kann eine bestimmte Methode zur Analyse der Daten geeignet sein oder auch nicht.

Im ersten Fall wären Sie nicht daran interessiert, die gruppeninternen Varianzen zu schätzen, da Sie davon ausgehen würden, dass sie alle gleich sind. Wenn Sie jedoch die globale Varianz aus den Gruppenvarianzen aggregieren, erhalten Sie dasselbe Ergebnis wie bei Verwendung der gepoolten Varianz, da die Definition der Varianz lautet

V a r (X) = \frac{1}{n - 1} \sum_{i} (x_{i} - μ)^{2}

$\mathrm{Var}(X) = \frac{1}{n-1} \sum_i (x_i - \mu)^2$

$n-1$ $n_1 + n_2 - 1$

Im zweiten Fall unterscheiden sich die Mittelwerte, aber Sie haben eine gemeinsame Varianz. Dieses Beispiel ist Ihrem Beispiel in der Bearbeitung am nächsten. In diesem Szenario würde die gepoolte Varianz die globale Varianz korrekt schätzen, während Sie bei einer geschätzten Varianz für den gesamten Datensatz falsche Ergebnisse erhalten würden, da Sie nicht berücksichtigt haben, dass die Gruppen unterschiedliche Mittelwerte haben.

Im dritten Fall ist es nicht sinnvoll, die "globale" Varianz zu schätzen, da Sie davon ausgehen, dass jede der Gruppen ihre eigene Varianz hat. Möglicherweise möchten Sie weiterhin die Schätzung für die gesamte Population erhalten. In diesem Fall können jedoch sowohl (a) die Berechnung der einzelnen Abweichungen pro Gruppe als auch (b) die Berechnung der globalen Abweichung aus dem gesamten Datensatz irreführende Ergebnisse liefern . Wenn Sie mit dieser Art von Daten arbeiten, sollten Sie sich überlegen, ein komplizierteres Modell zu verwenden, das die hierarchische Natur der Daten berücksichtigt.

Der vierte Fall ist der extremste und dem vorherigen sehr ähnlich. Wenn Sie in diesem Szenario den globalen Mittelwert und die Varianz schätzen möchten, benötigen Sie ein anderes Modell und andere Annahmen. In diesem Fall würden Sie davon ausgehen, dass Ihre Daten hierarchisch strukturiert sind, und neben den gruppeninternen Mitteln und Abweichungen gibt es eine übergeordnete allgemeine Abweichung, beispielsweise unter der Annahme des folgenden Modells

\begin{matrix} (5) & \begin{aligned} x_{i, j} & \sim N (μ_{j}, σ_{j}^{2}) \\ μ_{j} & \sim N (μ_{0}, σ_{0}^{2}) \\ σ_{j}^{2} & \sim I G (α, β) \end{aligned} \end{matrix}

$\begin{align} x_{i,j} &\sim \mathcal{N}(\mu_j, \sigma^2_j) \\ \mu_j &\sim \mathcal{N}(\mu_0, \sigma^2_0) \\ \sigma^2_j &\sim \mathcal{IG}(\alpha, \beta) \end{align} \tag{5}$

$\mu_j,\sigma^2_j$

— Tim
quelle

Ich habe meine Frage mit einem anderen Beispiel aktualisiert. In diesem Fall ist die Antwort aus der "Literaturformel" immer noch falsch. Ich verstehe, dass es sich normalerweise um "normale Daten" handelt, bei denen es keinen Extremfall wie in meinem obigen Beispiel gibt. Aber sollten Sie sich als Mathematiker nicht darum kümmern, welche Formel in der Tat richtig ist, anstatt welche Formel für das "alltägliche / allgemeine Problem" gilt? Wenn eine Formel grundlegend falsch ist, sollte sie verworfen werden, insbesondere wenn es eine andere Formel gibt, die in allen Fällen pathologisch ist oder nicht.

— Hanciong

Übrigens, Sie sagten, es gibt kompliziertere Möglichkeiten, die Varianz zu schätzen. Könnten Sie mir diese Wege zeigen? Vielen Dank

— Hanciong

2

Tim, gepoolten Varianz ist nicht die Gesamtvarianz der „kombinierten Probe“. In der Statistik bedeutet "gepoolt" gewichtet gemittelt (wenn wir von gemittelten Größen wie Abweichungen sprechen, wobei die Gewichte die n sind ) oder einfach summiert (wenn wir von Summen wie Streuungen oder Quadratsummen sprechen). Bitte überdenken Sie Ihre Terminologie (Wortwahl) in der Antwort.

— TTNPHNS

1

Obwohl nicht zum aktuellen Thema, ist hier eine interessante Frage zum "gemeinsamen" Varianzkonzept. stats.stackexchange.com/q/208175/3277

— ttnphns

1

Hanciong. Ich bestehe darauf, dass das Konzept der "gepoolten" im Allgemeinen und sogar im Besonderen der "gepoolten Varianz" im Allgemeinen keine Annahme erfordert wie: Gruppen stammten aus Populationen mit gleichen Varianzen. Pooling ist einfach Mischen (gewichtete Mittelung oder Summierung). Unter ANOVA und ähnlichen Umständen fügen wir diese statistische Annahme hinzu.

— TTNPHNS

1

Das Problem ist, wenn Sie nur die Stichproben verketten und ihre Varianz abschätzen, gehen Sie davon aus, dass sie aus derselben Verteilung stammen und daher den gleichen Mittelwert haben. Generell interessieren uns aber mehrere Stichproben mit unterschiedlichem Mittelwert. Macht das Sinn?

— ZHU
quelle

0

Der Anwendungsfall der gepoolten Varianz liegt vor, wenn Sie zwei Stichproben von Verteilungen haben, die:

kann verschiedene Mittel haben, aber
die Sie erwarten, eine gleiche wahre Varianz zu haben.

Ein Beispiel hierfür ist eine Situation, in der Sie die Länge von Alice 'Nase messen $n$ times for one sample, and measure the length of Bob's nose $m$ times for the second. These are likely to produce a bunch of different measurements on the scale of millimeters, because of measurement error. But you expect the variance in measurement error to be the same no matter which nose you measure.

In this case, taking the pooled variance would give you a better estimate of the variance in measurement error than taking the variance of one sample alone.

— Misha
quelle

Thank you for your answer, but I still don't understand about one thing. The first data gives you the variance with respect to Alice's nose length, and the second data gives you the variance with respect to Bob's nose length. If you are calculating a pooled variance from those data, what does it mean actually? Because the first variance is measuring the variation with respect to Alice's, and the second with respect to Bob's, so what additional information can we gained by calculating their pooled variance? They are completely different numbers.

— Hanciong

0

Through pooled variance we are not trying to estimate the variance of a bigger sample, using smaller samples. Hence, the two examples you gave don't exactly refer to the question.

Pooled variance is required to get a better estimate of population variance, from two samples that have been randomly taken from that population and come up with different variance estimates.

Example, you are trying to gauge variance in the smoking habits of males in London. You sample two times, 300 males from London. You end up getting two variances (probably a bit different!). Now since, you did a fair random sampling (best to your capability! as true random sampling is almost impossible), you have all the rights to say that both the variances are true point estimates of population variance (London males in this case).

But how is that possible? i.e. two different point estimates!! Thus, we go ahead and find a common point estimate which is pooled variance. It is nothing but weighted average of two point estimates, where the weights are the degree of freedom associated with each sample.

Hope this clarifies.

— Sameer Saurabh
quelle