Dies ist eine alte Frage, aber die akzeptierte Antwort ist nicht richtig oder vollständig. Der Benutzer möchte die Standardabweichung über 12-Monatsdaten berechnen, wobei der Mittelwert und die Standardabweichung bereits über jeden Monat berechnet werden. Unter der Annahme, dass die Anzahl der Stichproben in jedem Monat gleich ist, ist es möglich, den Stichprobenmittelwert und die Abweichung über das Jahr aus den Daten jedes Monats zu berechnen. Der Einfachheit halber nehmen wir an, dass wir zwei Datensätze haben:
X={x1,....xN}
Y={y1,....,yN}
mit bekannten Werten für den Stichprobenmittelwert und die Stichprobenvarianz: , , , .μxμyσ2xσ2y
Nun wollen wir die gleichen Schätzungen für berechnen
Z={x1,....,xN,y1,...,yN} .
Bedenken Sie, dass , wie berechnet werden:μxσ2x
μx=∑Ni=1xiN
σ2x=∑Ni=1x2iN−μ2x
Um den Mittelwert und die Varianz über die Gesamtmenge abzuschätzen, müssen wir Folgendes berechnen:
μz=∑Ni=1xi+∑Ni=1yi2N=(μx+μy)/2
was in der akzeptierten Antwort angegeben ist. Aus Gründen der Varianz ist die Geschichte jedoch anders:
σ2z=∑Ni=1x2i+∑Ni=1y2i2N−μ2z
σ2z=12(∑Ni=1x2iN−μ2x+∑Ni=1y2iN−μ2y)+12(μ2x+μ2y)−(μx+μy2)2
σ2z=12(σ2x+σ2y)+(μx−μy2)2
Wenn Sie also die Varianz über jede Teilmenge haben und die Varianz über die gesamte Menge möchten, können Sie die Varianzen jeder Teilmenge mitteln, wenn sie alle den gleichen Mittelwert haben. Andernfalls müssen Sie die Varianz des Mittelwerts für jede Teilmenge hinzufügen.
Nehmen wir an, wir produzieren im ersten Halbjahr genau 1000 MWh pro Tag und im zweiten Halbjahr 2000 MWh pro Tag. Dann sind der Mittelwert und die Varianz der Energieerzeugung in der ersten und zweiten Hälfte 1000 und 2000 für den Mittelwert und die Varianz ist 0 für beide Hälften. Nun gibt es zwei verschiedene Dinge, die uns interessieren könnten:
1- Wir wollen die Varianz der Energieerzeugung über das ganze Jahr berechnen : Dann erhalten wir durch Mitteln der beiden Varianz den Wert Null, was nicht korrekt ist, da die Energie pro Tag über das ganze Jahr nicht konstant ist. In diesem Fall müssen wir die Varianz aller Mittelwerte aus jeder Teilmenge addieren. Mathematisch ist in diesem Fall die interessierende Zufallsvariable die Energieerzeugung pro Tag. Wir haben Stichprobenstatistiken über Teilmengen und möchten die Stichprobenstatistiken über einen längeren Zeitraum berechnen.
2- Wir wollen die Varianz der Energieerzeugung pro Jahr berechnen: Mit anderen Worten, wir interessieren uns dafür, wie viel sich die Energieerzeugung von einem Jahr zum anderen ändert. In diesem Fall führt die Mittelung der Varianz zu der richtigen Antwort, die 0 ist, da wir in jedem Jahr genau 1500 MHW im Durchschnitt produzieren. In diesem Fall ist die interessierende Zufallsvariable rechnerisch der Durchschnitt der Energieerzeugung pro Tag, wobei die Mittelung über das ganze Jahr erfolgt.