Wie wird eine Standardabweichung "summiert"?


68

Ich habe einen monatlichen Durchschnitt für einen Wert und eine Standardabweichung, die diesem Durchschnitt entspricht. Ich berechne jetzt den Jahresdurchschnitt als Summe der Monatsdurchschnitte. Wie kann ich die Standardabweichung für den summierten Durchschnitt darstellen?

Ein Beispiel für die Leistung eines Windparks:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

Wir können sagen, dass der Windpark im Durchschnitt 10.358 MWh produziert, aber was ist die Standardabweichung, die dieser Zahl entspricht?


3
In einer Diskussion nach einer jetzt gelöschten Antwort wurde eine mögliche Unklarheit in dieser Frage festgestellt : Suchen Sie die SD der Monatsmittelwerte oder möchten Sie die SD aller ursprünglichen Werte wiederherstellen, aus denen diese Mittelwerte gebildet wurden? In dieser Antwort wurde auch zutreffend darauf hingewiesen, dass Sie, wenn Sie Letzteres wünschen, die Anzahl der Werte benötigen, die in jedem der monatlichen Durchschnittswerte enthalten sind.
Whuber

1
Ein Kommentar zu einer anderen gelöschten Antwort hat darauf hingewiesen, dass es seltsam ist, einen Durchschnitt als Summe zu berechnen : Sie meinen sicherlich, dass Sie den Durchschnitt der Monatsmittelwerte bilden. Wenn Sie jedoch den Durchschnitt aller Originaldaten schätzen möchten, ist ein solches Verfahren in der Regel nicht gut: Es wird ein gewichteter Durchschnitt benötigt. Und natürlich ist es nicht möglich, eine gute Antwort auf Ihre Frage zum "SD für den summierten Durchschnitt" zu geben, bis klar ist, was der "summierte Durchschnitt" ist und was er darstellen soll. Bitte klären Sie das für uns.
Whuber

@whuber Ich habe ein Beispiel hinzugefügt, um zu verdeutlichen. Mathematisch glaube ich, dass die Summe der Durchschnittswerte den monatlichen Durchschnittswerten von 12 entspricht.
klonq

2
Ja, klonq, das ist eine sehr vernünftige Bitte. Diese Antworten wurden jedoch von ihrem Besitzer und nicht von der Community gelöscht. Um ihren Wert zu bewahren, habe ich hier versucht, die Schlüsselideen, die in diesen Antworten und ihren Kommentaren auftauchen, weiterzugeben. Übrigens, Ihre letzten Änderungen sind sehr hilfreich: Die Leute sehen sich gerne Beispieldaten an.
Whuber

1
Willkommen auf der Website von Hayden. Dies ist keine Antwort auf die Frage des OP. Bitte verwenden Sie nur das Feld "Ihre Antwort", um Antworten zu geben. Wenn Sie eine Folgefrage haben, klicken Sie [ASK QUESTION]oben auf und stellen Sie sie dort. Dann können wir Ihnen richtig helfen. Da Sie neu hier sind, möchten Sie vielleicht an unserer Tour teilnehmen , die Informationen für neue Benutzer enthält.
gung - Wiedereinsetzung von Monica

Antworten:


66

Kurze Antwort: Sie mitteln die Abweichungen ; Dann können Sie die Quadratwurzel ziehen, um die durchschnittliche Standardabweichung zu erhalten .


Beispiel

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

Und dann ist die durchschnittliche Standardabweichung istsqrt(53,964) = 232


Aus der Summe der normalverteilten Zufallsvariablen :

Wenn und unabhängige Zufallsvariablen sind, die normalverteilt sind (und daher auch gemeinsam), dann ist auch ihre Summe normalverteiltXY

... ist die Summe von zwei unabhängigen normalverteilten Zufallsvariablen normal, wobei der Mittelwert die Summe der beiden Mittelwerte und die Varianz die Summe der beiden Varianzen ist

Und aus Wolfram Alphas normaler Summenverteilung :

Erstaunlicherweise ist die Verteilung einer Summe von zwei normalverteilten unabhängigen Variablen und mit Mitteln und Varianzen bzw. eine andere NormalverteilungXY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

was hat meine

μX+Y=μX+μY

und Varianz

σX+Y2=σX2+σY2

Für Ihre Daten:

  • Summe: 10,358 MWh
  • Varianz: 647,564
  • Standardabweichung: 804.71 ( sqrt(647564) )

Bildbeschreibung hier eingeben

So beantworten Sie Ihre Frage:

  • Wie wird eine Standardabweichung "summiert" ?
  • Sie addieren sie quadratisch:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

Konzeptionell summieren Sie die Varianzen und berechnen dann die Standardabweichung anhand der Quadratwurzel.


Weil ich neugierig war, wollte ich die durchschnittliche monatliche Durchschnittsleistung und ihre Standardabweichung kennen . Durch Induktion benötigen wir 12 Normalverteilungen, die:

  • Summe zu einem Mittelwert von 10,358
  • Summe zu einer Varianz von 647,564

Das wären 12 durchschnittliche monatliche Verteilungen von:

  • Bedeutung von 10,358/12 = 863.16
  • Varianz von 647,564/12 = 53,963.6
  • Standardabweichung von sqrt(53963.6) = 232.3

Bildbeschreibung hier eingeben

Wir können unsere monatlichen Durchschnittsverteilungen überprüfen, indem wir sie zwölfmal addieren, um festzustellen, ob sie der jährlichen Verteilung entsprechen:

  • Mittelwert: 863.16*12 = 10358 = 10,358( richtig )
  • Abweichung: 53963.6*12 = 647564 = 647,564( richtig )

Hinweis : Ich überlasse es jemandem mit Kenntnissen der esoterischen Latex-Mathematik, meine formula codeFormelbilder in stapelaustauschformatierte Formeln zu konvertieren .

Edit : Ich habe den Kurzschluss verschoben, um den Punkt oben zu beantworten. Da brauchte ich das heute wieder tun, aber ich wollte ein und überprüfen Sie, dass ich im Durchschnitt der Abweichungen .


3
Dies alles scheint davon auszugehen, dass die Monate nicht korreliert sind - haben Sie diese Annahme irgendwo explizit gemacht? Warum müssen wir auch die Normalverteilung einführen? Wenn wir nur über Varianz sprechen, dann scheint das unnötig zu sein - siehe zum Beispiel meine Antwort hier
Makro

1
@Marco Weil ich in Bildern besser denke und es alles leichter verständlich macht.
Ian Boyd

2
@Marco Ich glaube auch, dass diese Frage auf der (inzwischen nicht mehr existierenden) stats.stackexchange-Site gestartet wurde. Eine Reihe von Formeln ist weniger zugänglich als einfache, grafische und weniger strenge Behandlungen.
Ian Boyd

2
Ich bezweifle, dass dies richtig ist. Stellen Sie sich zwei Datensätze mit jeweils nur einer Messung vor. Ihre Varianz für jeden Satz ist 0, aber die Varianz für beide Messungen ist größer als 0, wenn sich die Datenpunkte unterscheiden.
Njol

1
@ Njol, ich denke, deshalb nehmen wir an, dass alle Variablen normalverteilt sind. Und wir können es hier tun, weil wir über physikalische Messungen sprechen. In Ihrem Beispiel sind beide Variablen nicht normalverteilt.
Tworec

11

Dies ist eine alte Frage, aber die akzeptierte Antwort ist nicht richtig oder vollständig. Der Benutzer möchte die Standardabweichung über 12-Monatsdaten berechnen, wobei der Mittelwert und die Standardabweichung bereits über jeden Monat berechnet werden. Unter der Annahme, dass die Anzahl der Stichproben in jedem Monat gleich ist, ist es möglich, den Stichprobenmittelwert und die Abweichung über das Jahr aus den Daten jedes Monats zu berechnen. Der Einfachheit halber nehmen wir an, dass wir zwei Datensätze haben:

X={x1,....xN}

Y={y1,....,yN}

mit bekannten Werten für den Stichprobenmittelwert und die Stichprobenvarianz: , , , .μxμyσx2σy2

Nun wollen wir die gleichen Schätzungen für berechnen

Z={x1,....,xN,y1,...,yN} .

Bedenken Sie, dass , wie berechnet werden:μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

Um den Mittelwert und die Varianz über die Gesamtmenge abzuschätzen, müssen wir Folgendes berechnen:

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2 was in der akzeptierten Antwort angegeben ist. Aus Gründen der Varianz ist die Geschichte jedoch anders:

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

Wenn Sie also die Varianz über jede Teilmenge haben und die Varianz über die gesamte Menge möchten, können Sie die Varianzen jeder Teilmenge mitteln, wenn sie alle den gleichen Mittelwert haben. Andernfalls müssen Sie die Varianz des Mittelwerts für jede Teilmenge hinzufügen.

Nehmen wir an, wir produzieren im ersten Halbjahr genau 1000 MWh pro Tag und im zweiten Halbjahr 2000 MWh pro Tag. Dann sind der Mittelwert und die Varianz der Energieerzeugung in der ersten und zweiten Hälfte 1000 und 2000 für den Mittelwert und die Varianz ist 0 für beide Hälften. Nun gibt es zwei verschiedene Dinge, die uns interessieren könnten:

1- Wir wollen die Varianz der Energieerzeugung über das ganze Jahr berechnen : Dann erhalten wir durch Mitteln der beiden Varianz den Wert Null, was nicht korrekt ist, da die Energie pro Tag über das ganze Jahr nicht konstant ist. In diesem Fall müssen wir die Varianz aller Mittelwerte aus jeder Teilmenge addieren. Mathematisch ist in diesem Fall die interessierende Zufallsvariable die Energieerzeugung pro Tag. Wir haben Stichprobenstatistiken über Teilmengen und möchten die Stichprobenstatistiken über einen längeren Zeitraum berechnen.

2- Wir wollen die Varianz der Energieerzeugung pro Jahr berechnen: Mit anderen Worten, wir interessieren uns dafür, wie viel sich die Energieerzeugung von einem Jahr zum anderen ändert. In diesem Fall führt die Mittelung der Varianz zu der richtigen Antwort, die 0 ist, da wir in jedem Jahr genau 1500 MHW im Durchschnitt produzieren. In diesem Fall ist die interessierende Zufallsvariable rechnerisch der Durchschnitt der Energieerzeugung pro Tag, wobei die Mittelung über das ganze Jahr erfolgt.


1

Ich glaube, was Sie wirklich interessieren könnte, ist der Standardfehler und nicht die Standardabweichung.

Der Standardfehler des Mittelwerts (SEM) ist die Standardabweichung der Schätzung des Stichprobenmittelwerts eines Populationsmittelwerts. Damit können Sie messen, wie gut Ihre jährliche MWh-Schätzung ist.

Es ist sehr einfach zu berechnen: Wenn Sie Stichproben verwenden, um Ihre monatlichen MWh-Mittelwerte und Standardabweichungen zu ermitteln, berechnen Sie einfach die Standardabweichung, wie von @IanBoyd vorgeschlagen, und normalisieren Sie sie mit der Gesamtgröße Ihrer Stichprobe. Das heißt,s = n

s=s12+s22++s12212×n

1

Ich möchte noch einmal die Unrichtigkeit eines Teils der akzeptierten Antwort hervorheben. Der Wortlaut der Frage führt zu Verwirrung.

Die Frage hat Average und StdDev von jedem Monat, aber es ist unklar, welche Art von Teilmenge verwendet wird. Ist es der Durchschnitt von 1 Windkraftanlage der gesamten Farm oder der tägliche Durchschnitt der gesamten Farm? Wenn es sich um den Tagesdurchschnitt für jeden Monat handelt, können Sie den Monatsdurchschnitt nicht addieren, um den Jahresdurchschnitt zu erhalten, da sie nicht denselben Nenner haben. Wenn es sich um den Einheitendurchschnitt handelt, sollte die Frage lauten

Wir können sagen, dass im Durchschnitt eines Jahres jede Turbine im Windpark 10.358 MWh ...

Anstatt von

Wir können sagen, dass der Windpark im Durchschnitt 10.358 MWh produziert, ...

Darüber hinaus ist die Standardabweichung oder -varianz der Vergleich mit dem eigenen Durchschnitt des Satzes. Es enthält KEINE Informationen zum Durchschnitt des gesamten Sets.

Abweichungsbeispiel

Das Bild ist nicht unbedingt richtig, vermittelt aber die allgemeine Vorstellung. Stellen wir uns die Leistung von 1 Windpark wie im Bild vor. Wie Sie sehen, hat die "lokale" Varianz nichts mit der "globalen" Varianz zu tun, egal wie Sie diese addieren oder multiplizieren. Sie können die Varianz des Jahres nicht mit einer Varianz von 2 Halbjahren vorhersagen. In der akzeptierten Antwort bedeutet die Division durch 12, um die monatliche Zahl zu erhalten, nichts , während die Summenberechnung korrekt ist . . Von den drei Abschnitten ist der erste und der letzte falsch, der zweite ist richtig.

Auch hier handelt es sich um eine sehr falsche Anwendung. Befolgen Sie diese bitte nicht, da Sie sonst in Schwierigkeiten geraten könnten. Gerade berechnet für die ganze Sache, unter Verwendung der jährlichen / monatlichen Gesamtleistung jeder Einheit als Datenpunkte, abhängig davon, ob Sie eine jährliche oder monatliche Zahl wünschen, sollte dies die richtige Antwort sein. Sie wollen wahrscheinlich so etwas. Das sind meine zufällig generierten Zahlen. Wenn Sie die Daten haben, sollte das Ergebnis in Zelle O2 Ihre Antwort sein.

Bildbeschreibung hier eingeben


Vielen Dank für das Bild, das mir sehr geholfen hat, zu verstehen, warum die akzeptierte Antwort unvollständig und möglicherweise sogar falsch ist. Sie haben es sehr gut erklärt, danke!
Kay,

Dies zeigt die Gefahr der Abstimmung. Die Leute, die wählen, sind die Leute, die die Antwort nicht kennen. Im Gegensatz zur Kodierung sind die Leute, die abstimmen, die dafür sorgen, dass der Code funktioniert. Je mehr Stimmen, desto besser die Antwort. Für Statistik / Mathematik bedeutet mehr Stimmen nur, dass es ansprechender ist.
Tam Le
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.