Warum ist der Korrelationskoeffizient zwischen X- und XY-Zufallsvariablen in der Regel 0,7?

49

Entnommen aus der praktischen Statistik für die medizinische Forschung, in der Douglas Altman auf Seite 285 schreibt:

... für zwei beliebige Größen X und Y wird X mit XY korreliert. Selbst wenn X und Y Stichproben von Zufallszahlen sind, würden wir eine Korrelation von X und XY von 0,7 erwarten

Ich habe es in R versucht und es scheint der Fall zu sein:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Warum ist das so? Was ist die Theorie dahinter?

correlation random-variable intuition

— kein Bestand
quelle

Für welchen Teil möchtest du eine Erklärung? Möchten Sie nur die vereinfachte Gleichung für die Korrelation, die sich aufgrund der bekannten Korrelation zwischen x und y und der Kovarianz zwischen x und xy ergibt? Oder wollen Sie einfach nur wissen, warum es hier überhaupt Kovarianz gibt?

— John

Gilt das auch für jeden

und

? Angenommen ,

und

sind unkorreliert und lassen

. Dann vermute ich, dass

nicht mit

korreliert .

X

$X$

Y

$Y$

X

$X$

Z

$Z$

Y = X - Z

$Y=X-Z$

X

$X$

X - Y

$X-Y$

— Henry

69

Wenn und sind nicht korrelierten Zufallsvariablen mit gleicher Varianz , dann haben wir diese $X$ $Y$ $\sigma^2$ Folglich

\begin{aligned} var (X - Y) & = var (X) + var (- Y) \\ = var (X) + var (Y) \\ = 2 σ^{2}, \\ cov (X, X - Y) & = cov (X, X) - cov (X, Y) & bilinearity of covariance operator \\ = var (X) - 0 & 0 because X and Y are uncorrelated \\ = σ^{2} . \end{aligned}

$\begin{align} \operatorname{var}(X-Y) &= \operatorname{var}(X) + \operatorname{var}(-Y)\\ &= \operatorname{var}(X) + \operatorname{var}(Y)\\ &=2\sigma^2,\\ \operatorname{cov}(X, X-Y) &= \operatorname{cov}(X,X) - \operatorname{cov}(X,Y) & \text{bilinearity of covariance operator}\\ &= \operatorname{var}(X) - 0 & 0 ~\text{because}~X ~\text{and}~ Y ~\text{are uncorrelated}\\ &= \sigma^2. \end{align}$

Also, wenn Sie feststellen

ρ_{X, X - Y} = \frac{cov (X, X - Y)}{\sqrt{var (X) var (X - Y)}} = \frac{σ^{2}}{\sqrt{σ^{2} \cdot 2 σ^{2}}} = \frac{1}{\sqrt{2}} .

$\rho_{X,X-Y} = \frac{\operatorname{cov}(X, X-Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(X-Y)}}= \frac{\sigma^2}{\sqrt{\sigma^2\cdot2\sigma^2}} = \frac{1}{\sqrt{2}}.$

die Stichprobenkorrelation von

und

für einen großen Datensatz

\frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) ((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}{\sqrt{\sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} \sum_{i = 1}^{n} {((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}^{2}}}

$\frac{\sum_{i=1}^n\left(x_i - \bar{x}\right) \left((x_i-y_i) - (\bar{x}-\bar{y})\right)}{ \sqrt{\sum_{i=1}^n\left(x_i - \bar{x}\right)^2 \sum_{i=1}^n\left((x_i-y_i) - (\bar{x}-\bar{y})\right)^2}}$

x

$x$

x - y

$x-y$

Aus einer Grundgesamtheit mit diesen Eigenschaften, die als Sonderfall "Zufallszahlen" enthält, ist das Ergebnis in der Regel nahe am Grundgesamtheitskorrelationswert

{(x_{i}, y_{i}) : 1 \leq i \leq n}

$\{(x_i,y_i)\colon 1 \leq i \leq n\}$

\frac{1}{\sqrt{2}} \approx 0.7071 \dots

$\frac{1}{\sqrt{2}} \approx 0.7071\ldots$

— Dilip Sarwate
quelle

Könnten Sie bitte etwas näher erläutern, wiecov(X,X)-cov(X,Y)=s^2

— Nostock

5

cov (X, X) ist ein anderer Name für var (X). cov (X, Y) = 0, da angenommen wird, dass X und Y nicht korreliert sind (daher Kovarianz = 0).

— Dilip Sarwate

58

Eine geometrisch-statistische Erklärung.

$n$ $2$ $X$ $Y$ $X$ $Y$

$X$ $Y$ $r=0$

$X$ $Y$

$X-Y$ $X+Y$

$X-Y$ $X+Y$ $\sqrt{2\sigma^2}$ $X$ $X-Y$ $X+Y$ $0.707...$

Bildbeschreibung hier eingeben

— ttnphns
quelle

4

Ein großes +1 für diesen Ansatz zu teilen.

— Whuber

(+1) Das ist eine sehr nette Art, dies zu präsentieren!

— Matt Krause

Ahh ... Bilder! (+1) Gut gemacht. :-)

— Kardinal

11

Ich glaube, dass es auch hier eine einfache Intuition gibt, die auf Symmetrie basiert. Da X und Y die gleichen Verteilungen und eine Kovarianz von 0 haben, sollte die Beziehung von X ± Y zu X die Hälfte der Variation von X ± Y "erklären"; Die andere Hälfte sollte mit Y erklärt werden. Also sollte R ² 1/2 sein, was bedeutet, dass R 1 / √2 ≈ 0,707 ist.

— denn333
quelle

r^{2} = \frac{1}{2}

$r^2=\frac 1 2$

r

$r$

\sqrt{1 / 2}

$\sqrt{1/2}$

1 / \sqrt{2}

$1/\sqrt 2$

Nein, das ist wirklich nicht mehr Standard. (Wenn Sie Beweise benötigen, lesen Sie die Antwort oben. Die 38 Personen, die bereits dafür gestimmt haben, haben nicht mit derselben Notation

— gestritten

r^{2} = 1 / 2

$r^2=1/2$

r = \sqrt{1 / 2}

$r=\sqrt{1/2}$

3

Hier ist eine einfache Möglichkeit, darüber nachzudenken, warum hier überhaupt eine Korrelation besteht.

Stellen Sie sich vor, was passiert, wenn Sie zwei Verteilungen subtrahieren. Wenn der Wert von x niedrig ist, ist er im Durchschnitt x - yniedriger als wenn der Wert von x hoch ist. Mit zunehmendem x steigt dann x - yim Mittel eine positive Korrelation.

— John
quelle

4

Ich glaube nicht, dass Ihre Aussage immer wahr ist. "Es wird immer eine Korrelation zwischen zwei Zufallsverteilungen geben, wenn es eine mathematische Beziehung gibt." zB x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$

— curious_cat

4

@curious_cat: Oder, um noch beeindruckender zu sein, lassen Sie das Ganze fallen y. :-)

— Kardinal