Der p-Wert für den t-Test wird unter der Annahme berechnet, dass alle Beobachtungen unabhängig sind. Das Berechnen von Wahrscheinlichkeiten (wie dem p-Wert) ist viel schwieriger, wenn Sie mit abhängigen Variablen arbeiten, und es ist nicht immer einfach, mathematisch zu erkennen, wo mit dem Test bei Vorhandensein von Abhängigkeiten etwas schief geht. Wir können das Problem jedoch leicht mit einer Simulation veranschaulichen.
Betrachten Sie zum Beispiel den Fall, dass es in jeder der beiden Schulen 5 Klassenzimmer mit 10 Schülern in jedem Klassenzimmer gibt. Unter der Annahme der Normalität sollte der p-Wert des Tests gleichmäßig auf das Intervall wenn zwischen allen Klassenräumen kein Unterschied in den mittleren Testergebnissen besteht. Das heißt, wenn wir viele Studien wie diese durchgeführt und ein Histogramm aller p-Werte aufgezeichnet haben, sollte es der kastenförmigen Gleichverteilung ähneln .( 0 , 1 )
Wenn jedoch eine Korrelation zwischen den Ergebnissen der Schüler im Klassenzimmer besteht, verhalten sich die p-Werte nicht mehr so, wie sie sollten. Eine positive Korrelation (wie hier zu erwarten) führt häufig zu zu kleinen p-Werten, so dass die Nullhypothese zu oft verworfen wird, wenn sie tatsächlich wahr ist. Eine R-Simulation, die dies veranschaulicht, finden Sie unten. 1000 Studien an zwei Schulen werden für unterschiedliche Korrelationen innerhalb des Klassenzimmers simuliert. Die p-Werte des entsprechenden t-Tests sind in den Histogrammen in der Abbildung dargestellt. Sie sind gleichmäßig verteilt, wenn keine Korrelation besteht, aber nicht anders. In der Simulation wird davon ausgegangen, dass es keine mittleren Unterschiede zwischen den Klassenzimmern gibt und dass alle Klassenräume die gleiche Korrelation innerhalb des Klassenzimmers aufweisen.
Die Konsequenz dieses Phänomens ist, dass die Typ I-Fehlerrate des t-Tests weit entfernt ist, wenn Korrelationen innerhalb des Klassenzimmers vorhanden sind. Zum Beispiel liegt ein t-Test bei 5% tatsächlich ungefähr bei 25%, wenn die Korrelation innerhalb des Klassenzimmers 0,1 beträgt! Mit anderen Worten, das Risiko, die Nullhypothese fälschlicherweise abzulehnen, steigt dramatisch an, wenn die Beobachtungen abhängig sind .
Beachten Sie, dass sich die Achsen zwischen den Histogrammen etwas unterscheiden.
R-Code:
library(MASS)
B1<-1000
par(mfrow=c(3,2))
for(correlation in c(0,0.1,0.25,0.5,0.75,0.95))
{
# Create correlation/covariance matrix and mean vector
Sigma<-matrix(correlation,10,10)
diag(Sigma)<-1
mu<-rep(5,10)
# Simulate B1 studies of two schools A and B
p.value<-rep(NA,B1)
for(i in 1:B1)
{
# Generate observations of 50 students from school A
A<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
# Generate observations of 50 students from school B
B<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
p.value[i]<-t.test(A,B)$p.value
}
# Plot histogram
hist(p.value,main=paste("Within-classroom correlation:",correlation),xlab="p-value",cex.main=2,cex.lab=2,cex.axis=2)
}