Warum ist der Korrelationskoeffizient zwischen X- und XY-Zufallsvariablen in der Regel 0,7?


49

Entnommen aus der praktischen Statistik für die medizinische Forschung, in der Douglas Altman auf Seite 285 schreibt:

... für zwei beliebige Größen X und Y wird X mit XY korreliert. Selbst wenn X und Y Stichproben von Zufallszahlen sind, würden wir eine Korrelation von X und XY von 0,7 erwarten

Ich habe es in R versucht und es scheint der Fall zu sein:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Warum ist das so? Was ist die Theorie dahinter?


Für welchen Teil möchtest du eine Erklärung? Möchten Sie nur die vereinfachte Gleichung für die Korrelation, die sich aufgrund der bekannten Korrelation zwischen x und y und der Kovarianz zwischen x und xy ergibt? Oder wollen Sie einfach nur wissen, warum es hier überhaupt Kovarianz gibt?
John

Gilt das auch für jeden und Y ? Angenommen , X und Z sind unkorreliert und lassen Y = X - Z . Dann vermute ich, dass X nicht mit X - Y korreliert . XYXZY=XZXXY
Henry

Antworten:


69

Wenn und Y sind nicht korrelierten Zufallsvariablen mit gleicher Varianz & sgr; 2 , dann haben wir diese var ( X - Y )XYσ2 FolglichρX,X-Y=COV(X,X-Y)

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
Also, wenn Sie feststellen Σ n i = 1 (xi- ˉ x )((xi-yi)-( ˉ x - ˉ y ))
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
die Stichprobenkorrelation vonxundx-yfür einen großen Datensatz{(xi,yi):1in
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy Aus einer Grundgesamtheit mit diesen Eigenschaften, die als Sonderfall "Zufallszahlen" enthält, ist das Ergebnis in der Regel nahe am Grundgesamtheitskorrelationswert 1{(xi,yi):1in}120.7071

Könnten Sie bitte etwas näher erläutern, wiecov(X,X)-cov(X,Y)=s^2
Nostock

5
cov (X, X) ist ein anderer Name für var (X). cov (X, Y) = 0, da angenommen wird, dass X und Y nicht korreliert sind (daher Kovarianz = 0).
Dilip Sarwate

58

Eine geometrisch-statistische Erklärung.

n 2 XYXY

XYr=0

XY

XYX+Y

XYX+Y2σ2XXYX+Y0.707...

Bildbeschreibung hier eingeben


4
Ein großes +1 für diesen Ansatz zu teilen.
Whuber

(+1) Das ist eine sehr nette Art, dies zu präsentieren!
Matt Krause

Ahh ... Bilder! (+1) Gut gemacht. :-)
Kardinal

11

Ich glaube, dass es auch hier eine einfache Intuition gibt, die auf Symmetrie basiert. Da X und Y die gleichen Verteilungen und eine Kovarianz von 0 haben, sollte die Beziehung von X ± Y zu X die Hälfte der Variation von X ± Y "erklären"; Die andere Hälfte sollte mit Y erklärt werden. Also sollte R 2 1/2 sein, was bedeutet, dass R 1 / √2 ≈ 0,707 ist.


r2=12r1/21/2

Nein, das ist wirklich nicht mehr Standard. (Wenn Sie Beweise benötigen, lesen Sie die Antwort oben. Die 38 Personen, die bereits dafür gestimmt haben, haben nicht mit derselben Notation
gestritten

r2=1/2r=1/2

3

Hier ist eine einfache Möglichkeit, darüber nachzudenken, warum hier überhaupt eine Korrelation besteht.

Stellen Sie sich vor, was passiert, wenn Sie zwei Verteilungen subtrahieren. Wenn der Wert von x niedrig ist, ist er im Durchschnitt x - yniedriger als wenn der Wert von x hoch ist. Mit zunehmendem x steigt dann x - yim Mittel eine positive Korrelation.


4
Ich glaube nicht, dass Ihre Aussage immer wahr ist. "Es wird immer eine Korrelation zwischen zwei Zufallsverteilungen geben, wenn es eine mathematische Beziehung gibt." zB x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat

4
@curious_cat: Oder, um noch beeindruckender zu sein, lassen Sie das Ganze fallen y. :-)
Kardinal
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.