Varianz des Produkts abhängiger Variablen


31

Wie lautet die Formel für die Varianz des Produkts abhängiger Variablen?

Bei unabhängigen Variablen ist die Formel einfach:

var(XY)=E(X2Y2)E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2
Aber wie lautet die Formel für korrelierte Variablen?

Wie finde ich übrigens die Korrelation anhand der statistischen Daten?

Antworten:


32

Nun, mit der vertrauten Identität, auf die Sie hingewiesen haben,

var(XY)=E(X2Y2)E(XY)2

Unter Verwendung der analogen Formel für die Kovarianz,

E(X2Y2)=cov(X2,Y2)+E(X2)E(Y2)

und

E(XY)2=[cov(X,Y)+E(X)E(Y)]2

was bedeutet , dass im Allgemeinen, geschrieben werden kann alsvar(XY)

cov(X2,Y2)+[var(X)+E(X)2][var(Y)+E(Y)2][cov(X,Y)+E(X)E(Y)]2

Es ist zu beachten, dass im Unabhängigkeitsfall und sich dies auf verringertcov(X2,Y2)=cov(X,Y)=0

[veinr(X)+E(X)2][veinr(Y.)+E(Y.)2]-[E(X)E(Y.)]2

und die zwei Terme löschen sich aus und Sie erhalten[E(X)E(Y.)]2

var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2

wie Sie oben ausgeführt haben.

Bearbeiten: Wenn Sie nur und nicht X und Y getrennt beobachten, gibt es meiner Meinung nach keine Möglichkeit, c o v ( X , Y ) oder c o v ( X 2 , Y 2 ) außer zu schätzen in besonderen Fällen (zB wenn X , Y a priori bekannte Mittel haben )XYXYcov(X,Y)cov(X2,Y2)X,Y


2
warum setzt man [var (X) + E (X) 2] ⋅ [var (Y) + E (Y) 2] anstelle von E (X2) E (Y2) ???

1
@ user35458, so dass er die Gleichung als Ausdruck von var (X) und var (Y) erhalten kann, vergleichbar mit der Anweisung von OP. Beachten Sie, dass E (X ^ 2) = Var (X) + E (X) ^ 2.
Waldir Leoncio

2
Um (offline) auf eine jetzt gelöschte Frage nach der Gültigkeit dieser Antwort zu antworten, habe ich ihre Ergebnisse mit der direkten Berechnung der Varianz des Produkts in vielen Simulationen verglichen. Es ist keine praktische Formel, die Sie verwenden sollten, wenn Sie sie vermeiden können, da sie durch die Löschung beim Subtrahieren eines großen Terms von einem anderen an Genauigkeit verlieren kann - aber darum geht es nicht. Eine Gefahr ist, dass diese Frage zufällige Variablen betrifft . Die Ergebnisse gelten für Daten, sofern Sie Varianzen und Kovarianzen mit Nennern von anstelle von n - 1 berechnennn1 (wie es für Software üblich ist).
whuber

14

Dies ist ein Nachtrag zu @ Macros sehr netter Antwort, die genau beschreibt, was bekannt sein muss, um die Varianz des Produkts zweier korrelierter Zufallsvariablen zu bestimmen. Seit

(1)var(XY)=E[(XY)2](E[XY])2=E[(XY)2](cov(X,Y)+E[X]E[Y])2(2)=E[X2Y2](cov(X,Y)+E[X]E[Y])2(3)=(cov(X2,Y2)+E[X2]E[Y2])(cov(X,Y)+E[X]E[Y])2
where cov(X,Y), E[X], E[Y], E[X2], and E[Y2] can be assumed to be known quantities, we need to be able to determine the value of E[X2Y2] in (2) or cov(X2,Y2) in (3). This is not easy to do in general, but, as pointed out already, if X and Y are independent random variables, then cov(X,Y)=cov(X2,Y2)=0cov(X,Y)0E[X2Y2] or cov(X2,Y2) even though it does simplify the right sides of (2) and (3) a little.

When X and Y are dependent random variables, then in at least one (fairly common or fairly important) special case, it is possible to find the value of E[X2Y2] relatively easily.

Suppose that X and Y are jointly normal random variables with correlation coefficient ρ. Then, conditioned on X=x, the conditional density of Y is a normal density with mean E[Y]+ρvar(Y)var(X)(xE[X]) and variance var(Y)(1ρ2). Thus,

E[X2Y2X]=X2E[Y2X]=X2[var(Y)(1ρ2)+(E[Y]+ρvar(Y)var(X)(XE[X]))2]
which is a quartic function of X, say g(X), and the Law of Iterated Expectation tells us that
(4)E[X2Y2]=E[E[X2Y2X]]=E[g(X)]
where the right side of (4) can be computed from knowledge of the 3rd and 4th moments of X -- standard results that can be found in many texts and reference books (meaning that I am too lazy to look them up and include them in this answer).

Further addendum: In a now-deleted answer, @Hydrologist gives the variance of XY as

(5)Var[xy]=(E[x])2Var[y]+(E[y])2Var[x]+2E[x]Cov[x,y2]+2E[y]Cov[x2,y]+2E[x]E[y]Cov[x,y]+Cov[x2,y2](Cov[x,y])2
and claims that this formula is from two papers published a half-century ago in JASA. This formula is an incorrect transcription of the results in the paper(s) cited by Hydrologist. Specifically, Cov[x2,y2] is a mistranscription of E[(xE[x])2(yE[y])2] in the journal article, and similarly for Cov[x2,y] and Cov[x,y2].

For the computation of E(X2Y2) in the joint normal case, also see math.stackexchange.com/questions/668641/…
Samuel Reid
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.