Ich bin ein Noob in der Statistik, also könntet ihr mir bitte hier raushelfen.
Meine Frage lautet: Was bedeutet eigentlich gepoolte Varianz ?
Wenn ich im Internet nach einer Formel für gepoolte Varianz suche, finde ich viel Literatur mit der folgenden Formel (zum Beispiel hier: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html) ):
Aber was rechnet es eigentlich ? Denn wenn ich diese Formel verwende, um meine gepoolte Varianz zu berechnen, erhalte ich eine falsche Antwort.
Betrachten Sie beispielsweise die folgenden "übergeordneten Beispiele":
Die Varianz dieser Elternstichprobe ist und ihr Mittelwert ist .≤ x p = 5
Angenommen, ich teile dieses übergeordnete Sample in zwei Unter-Samples auf:
- Die erste Unterprobe ist 2,2,2,2,2 mit dem Mittelwert und der Varianz .S 2 1 =0
- Die zweite Unterprobe ist 8,8,8,8,8 mit dem Mittelwert und der Varianz .S 2 2 =0
Nun wird unter Verwendung der obigen Formel zur Berechnung der gepoolten / übergeordneten Varianz dieser beiden Unterabtastungen klarerweise Null erzeugt, da und . Also, was berechnet diese Formel tatsächlich ?
Auf der anderen Seite fand ich nach längerer Ableitung die Formel, die die korrekte Varianz zwischen Pool und Eltern ergibt:
In der obigen Formel ist und .
Eine ähnliche Formel habe ich bei mir gefunden, zum Beispiel hier: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html und auch in Wikipedia. Obwohl ich zugeben muss, dass sie nicht genauso aussehen wie meine.
Was bedeutet gepoolte Varianz eigentlich? Sollte es nicht die Varianz der Elternstichprobe aus den beiden Teilstichproben bedeuten? Oder liege ich hier völlig falsch?
Danke im Voraus.
EDIT 1: Jemand sagt, dass meine beiden obigen Unterproben pathologisch sind, da sie keine Varianz haben. Nun, ich könnte Ihnen ein anderes Beispiel geben. Betrachten Sie dieses übergeordnete Beispiel:
Die Varianz dieser Elternstichprobe beträgt und ihr Mittelwert ist .
Angenommen, ich teile dieses übergeordnete Sample in zwei Unter-Samples auf:
- Die erste Unterprobe ist 1,2,3,4,5 mit dem Mittelwert und der Varianz .
- Die zweite Unterprobe ist 46,47,48,49,50 mit dem Mittelwert und der Varianz .
Wenn Sie nun die "Literaturformel" verwenden, um die gepoolte Varianz zu berechnen, erhalten Sie 2,5, was völlig falsch ist, da die übergeordnete / gepoolte Varianz 564,7 betragen sollte. Wenn Sie stattdessen "meine Formel" verwenden, erhalten Sie die richtige Antwort.
Bitte haben Sie Verständnis, ich verwende hier extreme Beispiele, um den Leuten zu zeigen, dass die Formel tatsächlich falsch ist. Wenn ich "normale Daten" verwende, die nicht viele Variationen aufweisen (Extremfälle), sind die Ergebnisse dieser beiden Formeln sehr ähnlich, und die Differenz kann aufgrund von Rundungsfehlern verworfen werden, nicht weil es sich um die Formel selbst handelt falsch.