Die Kovarianz zweier Variablen wurde mit -150 berechnet. Was sagt die Statistik über die Beziehung zwischen zwei Variablen aus?
Die Kovarianz zweier Variablen wurde mit -150 berechnet. Was sagt die Statistik über die Beziehung zwischen zwei Variablen aus?
Antworten:
Um die Antwort von Łukasz Deryło zu ergänzen : Wie er schreibt, impliziert eine Kovarianz von -150 eine negative Beziehung. Ob dies eine starke oder eine schwache Beziehung ist, hängt von den Varianzen der Variablen ab. Im Folgenden werden Beispiele für eine starke Beziehung (jede einzelne Variable hat eine Varianz von 200, sodass die Kovarianz in absoluten Zahlen im Vergleich zur Varianz groß ist) und für eine schwache Beziehung (jede Varianz ist 2000, sodass die Kovarianz klein ist) dargestellt in absoluten Zahlen im Vergleich zur Varianz).
variance <- 200:variance <- 2000:library(MASS)
nn <- 100
epsilon <- 0.1
variance <- 2000 # weak relationship
opar <- par(mfrow=c(2,2))
for ( ii in 1:4 ) {
while ( TRUE ) {
dataset <- mvrnorm(n=100,mu=c(0,0),Sigma=rbind(c(2000,-150),c(-150,2000)))
if ( abs(cov(dataset)[1,2]-(-150)) < epsilon ) break
}
plot(dataset,pch=19,xlab="",ylab="",main=paste("Covariance:",cov(dataset)[1,2]))
}
par(opar)
Wie Whuber bemerkt, sagt uns die Kovarianz an sich nicht viel über einen Datensatz aus. Zur Veranschaulichung nehme ich Anscombes Quartett und modifiziere es leicht. Beachten Sie, wie sehr unterschiedliche Streudiagramme alle dieselbe (gerundete) Kovarianz von -150 haben können:
anscombe.mod <- anscombe
anscombe.mod[,c("x1","x2","x3","x4")] <- sqrt(150/5.5)*anscombe[,c("x1","x2","x3","x4")]
anscombe.mod[,c("y1","y2","y3","y4")] <- -sqrt(150/5.5)*anscombe[,c("y1","y2","y3","y4")]
opar <- par(mfrow=c(2,2))
with(anscombe.mod,plot(x1,y1,pch=19,main=paste("Covariance:",round(cov(x1,y1),0))))
with(anscombe.mod,plot(x2,y2,pch=19,main=paste("Covariance:",round(cov(x2,y2),0))))
with(anscombe.mod,plot(x3,y3,pch=19,main=paste("Covariance:",round(cov(x3,y3),0))))
with(anscombe.mod,plot(x4,y4,pch=19,main=paste("Covariance:",round(cov(x4,y4),0))))
par(opar)
xx <- yy <- seq(0,100,by=10)
yy[9] <- -336.7
plot(xx,yy,pch=19,main=paste("Covariance:",cov(xx,yy)))
Es sagt Ihnen nur, dass die Beziehung negativ ist. Dies bedeutet, dass niedrige Werte einer Variablen tendenziell zusammen mit hohen Werten der anderen auftreten.
Sie können auch einen Test auf Signifikanz der Korrelation durchführen.