Wenn wir einen gepaarten t-Test durchführen möchten, ist (wenn ich das richtig verstehe), dass die mittlere Differenz zwischen den angepassten Maßeinheiten normal verteilt wird.
Im gepaarten t-Test ist dies in der Forderung (AFAIK) ausgedrückt, dass die Differenz zwischen den übereinstimmenden Maßeinheiten normal verteilt wird (auch wenn die Verteilung jeder der beiden verglichenen Gruppen nicht normal ist).
In einem ungepaarten t-Test können wir jedoch nicht über den Unterschied zwischen übereinstimmenden Einheiten sprechen. Daher müssen die Beobachtungen der beiden Gruppen normal sein, damit der Unterschied im Mittelwert normal ist. Was mich zu meiner Frage führt:
Ist es möglich, dass zwei nicht normale Verteilungen die Differenz ihrer Mittelwerte normal verteilen? (Und damit erfüllen wir - soweit ich weiß - unsere notwendige Voraussetzung, um einen ungepaarten T-Test an ihnen durchzuführen.)
Update: (Vielen Dank für die Antworten) Ich sehe, dass die allgemeine Regel, die wir suchen, in der Tat ist, dass der Unterschied der Mittelwerte normal sein wird, was aufgrund der CLT eine gute Annahme zu sein scheint (unter groß genug n). Dies ist für mich erstaunlich (nicht überraschend, nur erstaunlich), da dies für den ungepaarten T-Test funktioniert, aber für den Einzelproben-T-Test nicht so gut funktioniert. Hier ist ein R-Code zur Veranschaulichung:
n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)
P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
y2 <- runif(n2, 0, 2*mean2)
MEAN[i] <- mean(y1) - mean(y2)
P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)
n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057 # "wrong" type I error
Vielen Dank.