Ist die Stichprobenkorrelation immer positiv mit der Stichprobenvarianz korreliert?

Die Stichprobenkorrelation und die Stichprobenstandardabweichung von (nenne es ) scheinen positiv korreliert zu sein, wenn ich bivariates normales , mit einer positiven wahren Korrelation simuliere (und scheinen negativ korreliert zu sein, wenn die wahre Korrelation zwischen und ist Negativ). Ich fand das etwas eingängig. Sehr heuristisch denke ich, dass dies die Tatsache widerspiegelt, dass die erwartete Zunahme von Y (in Einheiten von SD (Y)) für eine Zunahme von X um eine SD darstellt, und wenn wir ein größeres , dann spiegelt die Änderung von Y wider verbunden mit einer größeren Änderung in X. $r$ $X$ $s_X$ $X$ $Y$ $X$ $Y$ $r$ $s_X$ $r$

Ich würde jedoch gerne wissen, ob für im Allgemeinen gilt (zumindest für den Fall, dass X und Y bivariat normal und mit großem n sind). Wenn wir eine echte SD bezeichnen lassen, haben wir: $Cov(r, s_x) >0$ $r>0$ $\sigma$

C o v (r, s_{X}) = E [r s_{X}] - ρ σ_{x}

$Cov(r, s_X) = E [ r s_X] - \rho \sigma_x$

\approx E [\frac{\hat{C o v} (X, Y)}{s_{Y}}] - \frac{C o v (X, Y)}{σ_{Y}}

$\approx E \Bigg[ \frac{\widehat{Cov}(X,Y)}{s_Y} \Bigg] - \frac{Cov(X,Y)}{\sigma_Y}$

Ich habe versucht, im ersten Term eine Taylor-Erweiterung zu verwenden, aber das hängt von ist also eine Sackgasse. Irgendwelche Ideen? $Cov(\widehat{Cov}(X,Y), s_Y)$

BEARBEITEN

Vielleicht wäre eine bessere Richtung zu versuchen zu zeigen, dass , wobei der OLS-Koeffizient von Y auf X ist. Dann könnten wir das argumentieren, da , dies impliziert das gewünschte Ergebnis. Da fast wie ein Unterschied der Stichprobenmittelwerte ist, könnten wir vielleicht das erstere Ergebnis erhalten, indem wir so etwas wie die bekannte Unabhängigkeit des Stichprobenmittelwerts und der Varianz für ein normales Wohnmobil verwenden? $Cov(\widehat{\beta}, s_X)=0$ $\widehat{\beta}$ $\widehat{\beta} = r \frac{s_Y}{s_X}$ $\widehat{\beta}$

correlation covariance independence

— halber Durchgang
quelle

Es wäre unverändert. Hmm. Ich fürchte, ich sehe die Relevanz noch nicht.

— Halb passieren

Ich sollte wohl auch beachten , dass , während ich wünschte , das eine Hausaufgaben Frage waren, ist es nicht ... :)

— Halb passieren

Ah, ich habe die Frage nicht sorgfältig genug gelesen. Entschuldigen Sie.

— Jbowman

Die erste Gleichheit in Ihrer Berechnung ist nicht korrekt. ist konsistent für die Standardabweichung, aber nicht unvoreingenommen: en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation

s_{x} = \sqrt{s_{x}^{2}}

$s_x = \sqrt{s^2_x}$

— Andrew M

Für großes n ist es jedoch nahezu unvoreingenommen - der Faustregelkorrekturfaktor für ein normales Wohnmobil ist (n - 1,5) vs. (n - 1).

— Halb passieren

Antworten:

TL; dr

Die nicht diagonalen Einträge der Stichproben-Kovarianz werden im Allgemeinen mit den diagonalen Einträgen korreliert, da nur dann gilt, wenn spezielle Bedingungen für die gemischten Momente 4. Ordnung gelten. Wenn bivariate Gaußsche Werte sind, gelten diese Bedingungen nur, wenn von unabhängig ist . $E(XY^3) - E(XY)E(Y^2) = 0$ $(X,Y)$ $X$ $Y$

Einzelheiten

Es gibt ein asymptotisches Ergebnis, das hier gezeigt werden kann, indem die Grenzverteilung von mal der Probenkovarianz untersucht wird (nach der CLT wird es multivariate Normalen sein) und dann die Delta-Methode angewendet wird. Dies bedeutet leider, dass wir einen Umweg über eine Ableitung der Verteilung der Stichproben-Kovarianz machen müssen da ich online keine guten Referenzen dazu finden kann. Wenn Sie bereit sind, Normalität anzunehmen, können Sie mit Kenntnis der Kovarianz der Wishart-Verteilung direkt zu Abschnitt 2 springen. $\sqrt n$ $^1$

1 Die asymptotische Verteilung der Probenkovarianz

Sei eine iid-Stichprobe aus einer bivariaten Verteilung mit endlichen vierten Momenten und sei Ohne Verlust der Allgemeinheit und um lästige zusätzliche Buchhaltung zu vermeiden, nehmen wir . $V_1, \dotsc, V_n$ $V_i = \begin{pmatrix} X_i \\ Y_i \end{pmatrix}$

Cov (V_{i}) = (\begin{matrix} σ^{2} & ρ σ τ \\ ρ σ τ & τ^{2} \end{matrix}) = Σ .

$\text{Cov}(V_i) = \begin{pmatrix} \sigma^2 & \rho \sigma \tau \\ \rho \sigma \tau & \tau^2 \end{pmatrix} = \Sigma.$

E (V_{i}) = 0

$E(V_i) = \mathbf{0}$

Dann ist durch die Linearität der Erwartung und das schwache Gesetz großer Zahlen die Stichproben-Kovarianz ist unvoreingenommen und konsistent für und tatsächlich

S_{n} = \frac{1}{n - 1} \sum_{i = 1}^{n} (V_{i} - {\bar{V}}_{n}) (V_{i} - {\bar{V}}_{n})^{T} = \frac{1}{n - 1} \sum_{i = 1} V_{i} V_{i}^{T} - \frac{n}{n - 1} {\bar{V}}_{n} {\bar{V}}_{n}^{T}

$S_n = \frac{1}{n-1} \sum_{i=1}^n (V_i - \bar V_n) (V_i - \bar V_n)^T = \frac{1}{n-1}\sum_{i=1} V_i V_i^T - \frac{n}{n-1} \bar V_n \bar V_n^T$

Σ

$\Sigma$

\sqrt{n} (S_{n} - Σ) \to_{d} N (0, Λ) .

$\sqrt{n} (S_n - \Sigma) \rightarrow_d N(0, \Lambda).$

Die Übung geht somit zur Bestimmung von . Für eine symmetrische Matrix , lassen sein , die "Vektorisierung" seines oberen Dreiecks. Betrachten Sie nun ein einzelnes Element des Durchschnitts, das in den führenden Term (die Streumatrix) von : Durch die Null-Mittelwert-Annahme, dass bereits und durch Berücksichtigung der Potenzen von und , die in , können wir einfach schreiben $\Lambda$ $\mathbf{A} = \begin{pmatrix} a & b \\ b & c \end{pmatrix}$ $\tilde{\mathbf{A}} = (a, b, c)^T$ $S_n$

{\tilde{Z}}_{i} = \tilde{V_{i} V_{i}^{T}} = (\begin{matrix} X_{i}^{2} \\ X_{i} Y_{i} \\ Y_{i}^{2} \end{matrix}) .

$\tilde Z_i = \widetilde{V_i V_i^T} = \begin{pmatrix} X_i^2 \\ X_i Y_i \\ Y_i^2 \end{pmatrix}.$

E (Z_{i}) = \tilde{Σ}

$E(Z_i) = \tilde \Sigma$

X

$X$

Y

$Y$

{\tilde{Z}}_{i} {\tilde{Z}}_{i}^{T}

$\tilde{Z}_i \tilde{Z}_i^T$

Cov ({\tilde{Z}}_{i}) = E ({\tilde{Z}}_{i} {\tilde{Z}}_{i}^{T}) - E ({\tilde{Z}}_{i}) E ({\tilde{Z}}_{i})^{T} = (\begin{matrix} κ_{40} σ^{4} & κ_{31} σ^{2} τ & κ_{22} σ^{2} τ^{2} \\ κ_{31} σ^{2} τ & κ_{22} σ^{2} τ^{2} & κ_{13} σ τ^{3} \\ κ_{22} σ^{2} τ^{2} & κ_{13} σ τ^{3} & κ_{04} τ^{4} \end{matrix}) - \tilde{Σ} {\tilde{Σ}}^{T} .

$\text{Cov}(\tilde Z_i) = E(\tilde Z_i \tilde Z_i^T) - E(\tilde Z_i) E(\tilde Z_i)^T = \begin{pmatrix} \kappa_{40} \sigma^4 & \kappa_{31} \sigma^2 \tau & \kappa_{22} \sigma^2 \tau^2 \\ \kappa_{31} \sigma^2 \tau & \kappa_{22} \sigma^2 \tau^2 & \kappa_{13} \sigma \tau^3 \\ \kappa_{22} \sigma^2 \tau^2 & \kappa_{13} \sigma \tau^3 & \kappa_{04} \tau^4 \end{pmatrix} - \tilde \Sigma \tilde \Sigma^T.$

Hier gibt das an gemischtes standardisiertes Moment (ungefähr der Mittelwert, aber wir haben zu Beginn den Mittelwert Null angenommen).

κ_{i j} = E [{(\frac{X_{i}}{σ})}^{i} {(\frac{Y_{i}}{τ})}^{j}]

$\kappa_{ij} = E \left[ \left( \frac{X_i}{\sigma} \right)^i \left( \frac{Y_i}{\tau} \right)^j \right]$

i j

$ij$

Alternativ haben wir die Faktorisierung wobei , und

Cov ({\tilde{Z}}_{i}) = D (σ, τ) [K - R (ρ) R (ρ)^{T}] D (σ, τ), (1)

$\text{Cov}(\tilde Z_i) = D(\sigma, \tau) [ K - R(\rho) R(\rho)^T ] D(\sigma, \tau), \quad (1)$

D (σ, τ) = diag (σ^{2}, σ τ, τ^{2})

$D(\sigma, \tau) = \text{diag}(\sigma^2, \sigma \tau, \tau^2)$

R (ρ) = (1, ρ, 1)^{T}

$R(\rho) = (1, \rho, 1)^T$

K = (\begin{matrix} κ_{04} & κ_{31} & κ_{22} \\ κ_{31} & κ_{22} & κ_{13} \\ κ_{22} & κ_{13} & κ_{04} \end{matrix}) .

$K = \begin{pmatrix} \kappa_{04} & \kappa_{31} & \kappa_{22} \\ \kappa_{31} & \kappa_{22} & \kappa_{13} \\ \kappa_{22} & \kappa_{13} & \kappa_{04} \end{pmatrix}.$

Wir haben also, dass und , die die Stichprobenvarianz von und die Kovarianz von korreliert sind, es sei denn, . Wenn multivariat normal ist, tritt dies nur auf, wenn . $Z_{11}$ $Z_{12}$ $X$ $X,Y$ $\rho = \kappa_{31}$ $V_i$ $\rho = 0$

2 Der Korrelationskoeffizient

Betrachten Sie nun die Transformation auf . Dies liefert die bivariate Verteilung des Probenkorrelationskoeffizienten und der Probenvarianz von x. Nach der Delta-Methode und der asymptotischen Normalität von ist wobei ist der Jacobi von . $g(x, y, z) = (x, \frac{y}{\sqrt{z}\sqrt{x}})$ $\tilde{S_n}$ $S_n$

\sqrt{n} (g (\tilde{S_{n}}) - (ρ, σ^{2})^{T}) \to N (0, J (\tilde{Σ})^{T} \tilde{Λ} J (\tilde{Σ})),

$\sqrt{n}( g(\tilde{S_n}) - (\rho, \sigma^2)^T ) \rightarrow N(0, \mathbf{J}(\tilde \Sigma)^T \tilde \Lambda \mathbf{J}(\tilde \Sigma)),$

J (\tilde{Σ}) = [\nabla g_{1}^{T}, \nabla g_{2}^{T}]^{T}

$\mathbf{J}(\tilde \Sigma) = [\nabla g_1^T, \nabla g_2^T]^T$

g

$g$

Ich finde , (obwohl Sie wahrscheinlich wollen meine Algebra überprüfen ..) , dass der Gradient der zweiten Komponente von heißt So $g$

\nabla g_{2} (σ^{2}, ρ σ τ, τ^{2}) = {(- \frac{ρ}{2 σ^{2}}, \frac{1}{σ τ}, - \frac{ρ}{2 τ^{2}})}^{T},

$\nabla g_2 (\sigma^2, \rho \sigma \tau, \tau^2) = \left( -\frac{\rho}{2\sigma^2}, \frac{1}{\sigma \tau}, -\frac{\rho}{2 \tau^2} \right)^T,$

J (σ, ρ, τ) = (\begin{matrix} 1 & - \frac{ρ}{2 σ^{2}} \\ 0 & \frac{1}{σ τ} \\ 0 & - \frac{ρ}{2 τ^{2}} \end{matrix}) .

$J(\sigma, \rho, \tau) = \begin{pmatrix} 1 & -\frac{\rho}{2\sigma^2} \\ 0 & \frac{1}{\sigma \tau} \\ 0 & -\frac{\rho}{2 \tau^2} \end{pmatrix}.$

Alles zusammen mit der Faktorisierung in Gleichung (1) ergibt

J (σ, ρ, τ)^{T} D (σ, τ) [K - R (ρ) R (ρ)^{T}] D (σ, τ) J (σ, ρ, τ) .

$J(\sigma, \rho, \tau)^T D(\sigma, \tau) [ K - R(\rho) R(\rho)^T ] D(\sigma, \tau) J(\sigma, \rho, \tau).$

Wenn Sie einige einfach zu verwendende Zahlen eingeben , z. B. und , hätten wir für wobei im Allgemeinen eine dichte Matrix ist. Mit freundlicher Genehmigung von Mathematica habe ich dieses Produkt in Bezug auf Einträge in und unter $\sigma = \tau = 1$ $\rho = .5$

J (σ, ρ, τ)^{T} D (σ, τ) [K - R (ρ) R (ρ)^{T}] D (σ, τ) J (σ, ρ, τ) = (\begin{matrix} - 1 / 4 & 1 & - 1 / 4 \\ 1 & 0 & 0 \end{matrix}) I Ω I (\begin{matrix} - 1 / 4 & 1 \\ 1 & 0 \\ - 1 / 4 & 0 \end{matrix}) = Q,

$J(\sigma, \rho, \tau)^T D(\sigma, \tau) [ K - R(\rho) R(\rho)^T ] D(\sigma, \tau)J(\sigma, \rho, \tau) = \begin{pmatrix} -1/4 & 1 & -1/4 \\ 1 & 0 & 0 \end{pmatrix} \mathbf I \Omega \mathbf I \begin{pmatrix} -1/4 & 1 \\ 1 & 0 \\ -1/4 & 0 \end{pmatrix} = \mathbf{Q},$

Ω = K - R (ρ) R (ρ)^{T}

$\Omega = K - R(\rho) R(\rho)^T$

K

$K$

Q_{12}

$Q_{12}$

n \times Q_{12} = n \times Cov (r, s_{x}^{2}) = κ_{31} - \frac{κ_{04} + κ_{22}}{4} (2)

$n \times Q_{12} = n \times \text{Cov}(r, s^2_x) = \kappa_{31} -\frac{\kappa_{04} + \kappa_{22}}{4} \quad (2)$ Das ist ein undurchsichtiger Ausdruck in Bezug auf die gemischten Momente, aber es scheint sicher nicht so, als würde es im Allgemeinen Null sein.

3 Spezialisiert auf den Normalfall

Das Isserlis-Theorem bietet eine Möglichkeit, die gemischten Momente eines Gaußschen abzuleiten. Wieder unter der Annahme von und wir , also , wie Sie beobachten. $\sigma = \tau = 1$ $\rho = .5$ $\kappa_{31} = 3/2, \kappa_{04} = 3, \kappa_{22} = 3/2$ $Q_{12} = 3/2 - (3 + 3/2)/4 = 3/8 > 0$

4 Simulation und Beispiel

Unten finden Sie eine Simulation zur Überprüfung von Gleichung (1). Für und (in rot bzw. blau) iid Beobachtungen aus einer multivariaten Normalen leite ich die Kovarianz von durch Bootstrap ab. Die Kovarianz zwischen und auf der Y - Achse aufgetragen , wie von variiert bis . Der theoretische Wert aus Gleichung (1) und die Verwendung von Fakten über die Momente 4. Ordnung des bivariaten Gaußschen ist in einer gestrichelten schwarzen Linie dargestellt. $n=100$ $n=1000$ $\sqrt{n} \tilde S_n$ $S_{xy}$ $S_{xx}$ $\rho$ $-.9$ $.9$

Ein Spaß Übung wäre, zu versuchen , eine Familie von Copula zu finden , dass für einen beliebigen Wert von machen würde ... $\rho$ $\text{Cov}(S_{xy}, S_{xx}) = 0$

library(mvtnorm)
library(tidyverse)
library(boot)
params = expand.grid(sx = 1, sy = 1, n = c(100, 1000), rho = seq(-.9, .9, by = .1), replicate = 1:10) %>% mutate(k04 = 3*sx^4, k31 = 3*sx*rho*sx*sy, q12 = k31 - rho*sx*sy)

Sn_tilde = function(dat, idx){
    Sn = cov(dat[idx,,drop =FALSE])*sqrt(length(idx))
    Sn[upper.tri(Sn, diag = TRUE)]
}

out = params %>% group_by_all() %>% do({
    x = with(., rmvnorm(n = .$n, sigma = matrix(c(sx^2, rho*sx*sy,
                                            rho*sx*sy, sy^2), nrow = 2)))
colnames(x) = c('X', 'Y')
b = boot(x, Sn_tilde, R = 500)
cov_Sn = cov(b$t)
    rownames(cov_Sn) = colnames(cov_Sn) = c('Sxx', 'Sxy', 'Syy')
    as_tibble(cov_Sn, rownames = 'j')
})


ggplot(filter(out,  j == 'Sxx'), aes(x = rho, y = Sxy, color = factor(n))) + geom_point(size = .5, alpha = .5) + geom_smooth(method = 'lm') + geom_line(data = filter(params, replicate == 1, n == 100), aes(y = q12), lty = 2, color = 'black') + theme_minimal() + ylab('Cov(Sxy, Sxx)')

^{1}

$^1$ Hierbei werden Michael Perlmans Vorlesungsunterlagen zu Wahrscheinlichkeits- und mathematischen Statistiken verwendet, von denen ich mir wirklich wünschte, sie wären elektronisch verfügbar, damit ich meine ersetzen könnte, wenn sie abgenutzt sind ...

— Andrew M.
quelle

Vielen Dank! Ich denke jedoch, dass es irgendwo einen Fehltritt geben könnte: Tatsächlich scheint es, dass , nicht 3/8, empirisch (obwohl dies nicht tut, weil und ).

C o v (r, s_{x}) \to 0

$Cov(r, s_x) \to 0$

C o r r (r, s_{x})

$Corr(r, s_x)$

V a r (r, s_{x}) \to 0

$Var(r, s_x) \to 0$

V a r (r, s_{x}) \to 0

$Var(r, s_x) \to 0$

— Halb passieren

Ich werde eine neue Frage dazu stellen, da ich auch nicht weiß, wie ich .

C o v (r, s_{x}) \to 0

$Cov(r, s_x) \to 0$

— Halb passieren

(+1) Sehr interessanter Beitrag. Es scheint , dass für bivariate , Ausdruck auswertet bis . Dies führt zu dem Ergebnis, dass wenn während wenn .

N (0, 1)

$N(0,1)$

(2)

$(2)$

3 ρ - 1 - 0.5 ρ^{2}

$3\rho - 1 - 0.5 \rho^2$

ρ < 0.35 ⟹ Cov (r, s_{x}^{2}) < 0

$\rho<0.35 \implies \text{Cov}(r, s^2_x) <0$

ρ > 0.35 ⟹ Cov (r, s_{x}^{2}) > 0

$\rho>0.35 \implies \text{Cov}(r, s^2_x) >0$

— Alecos Papadopoulos

@ half-pass: Das Paar muss um werden , um eine (nicht entartete) Grenzverteilung zu erhalten. Wenn Sie die Korrelation per se untersuchen möchten, können Sie das Ergebnis in Abschnitt 1 verwenden und einfach die in Abschnitt 2 entsprechend ändern .

(r, s_{x})

$(r, s_x)$

\sqrt{n}

$\sqrt n$

g

$g$

— Andrew M

@AlecosPapadopoulos: Ausdruck 2 ist bereits auf den Fall spezialisiert, dass und . Wenn Sie sich nur um das Vorzeichen der Assoziation zwischen und , können Sie einfach den [1,2] -Eintrag in der Differenz in Gleichung 1 anhand von Fakten über die gemischte Momente einer bivariaten Normalen, um als Funktion von anzuschließen .

τ^{2} = σ^{2} = 1

$\tau^2 = \sigma^2 = 1$

ρ = .5

$\rho = .5$

s_{x}

$s_x$

r

$r$

K - R (ρ) R (ρ)^{T}

$K - R(\rho)R(\rho)^T$

K

$K$

ρ

$\rho$

— Andrew M

Bearbeiten: Diese Antwort ist falsch. Ich bin mir nicht sicher, ob es besser ist, es hier für die Aufzeichnung zu belassen oder es einfach zu löschen.

Ja, es gilt asymptotisch, unabhängig von der Verteilung von X und Y. Ich war mit der Taylor-Erweiterung auf dem richtigen Weg:

— halber Durchgang
quelle

Ich schaue auf Gl. , zweite Zeile. Wir haben eine Wahrscheinlichkeitsgrenze minus einer festen Menge. Wenn wir Konsistenz haben, ist die Wahrscheinlichkeitsgrenze gleich der festen Menge. Daher ist die 2. Zeile von Gl. scheint gleich Null zu sein ... was zu erwarten ist, da die Wahrscheinlichkeitsgrenze von gleich . Aber sowohl als auch sind Konstanten, daher ist ihre Kovarianz Null. Es scheint, dass das erzielte Ergebnis entscheidend davon abhängt, 1) den Taylor-Rest (dessen Zeichen wir nicht kennen) und (WEITER) zu ignorieren

(2.1)

$(2.1)$

(2.1)

$(2.1)$

Cov (r, s_{x})

$\text{Cov}(r,s_x)$

Cov (ρ, σ_{x})

$\text{Cov}(\rho, \sigma_x)$

ρ

$\rho$

σ_{x}

$\sigma_x$

— Alecos Papadopoulos

(Forts.) ... und 2) zum selektiven Anwenden der Konsistenz-Eigenschaft auf bestimmte Begriffe, jedoch nicht auf andere. Sind Sie sicher, dass dies gültige Manipulationen sind?

— Alecos Papadopoulos

Danke für den Pushback. Ich habe diese Manipulation in der zweiten Zeile vorgenommen, weil für die allgemeinen Wohnmobile U und V Plim E [U] E [V] = Plim E [U] Plim E [V] ist, was mir den zweiten Term gibt. Aber für den ersten Term ist Plim E [UV]! = Plim E [U] Plim E [V]. Daher denke ich, dass ich durchweg Konsistenz angewendet habe, nur auf verschiedene Schritte.

— halber Pass

Ich bin sicher nicht, aber ...

— Halb passieren

Okay - das ist in der Tat falsch! Ich glaube jedoch nicht, dass dies auf die erste Manipulation zurückzuführen ist, sondern vielmehr auf die Tatsache, dass ich Var (s_Y) -> 0 ebenfalls ignoriert habe, was zu einer Tautologie führte. Leider kann ich meine eigene Antwort nicht ablehnen.

— Halb passieren

Dies hängt von der gemeinsamen Verteilung ab. Für das von Ihnen erwähnte Beispiel ist die bivariate Normalverteilung (Mittelwert Null) durch . Daraus folgt, dass man alle möglichen Wertekombinationen dieser drei Parameter haben kann, was bedeutet, dass keine Beziehung zwischen und den Standardabweichungen hergestellt werden kann. $\rho, \sigma_x, \sigma_y$ $\rho$

Für andere bivariate Verteilungen kann der Korrelationskoeffizient grundsätzlich eine Funktion der Standardabweichungen sein (im Wesentlichen sind beide Funktionen primitiverer Parameter). In diesem Fall kann untersucht werden, ob eine monotone Beziehung besteht.

— Alecos Papadopoulos
quelle

Ich verstehe, dass die drei Parameter willkürliche Beziehungen für die BVN-Verteilung haben können, aber ich denke nicht, dass die Stichprobenschätzungen davon asymptotisch unabhängig sind.

— Halb passieren