Nur weil die Zusammenfassung mit fünf Zahlen identisch ist, bedeutet dies nicht, dass die Verteilung identisch ist. Dies zeigt Ihnen, wie viele Informationen verloren gehen, wenn wir Daten grafisch in einem Boxplot darstellen!
Der vielleicht einfachste Weg, um das Problem zu erkennen, besteht darin, dass die Zusammenfassung mit fünf Zahlen nichts über die Verteilung der Werte zwischen dem minimalen und dem unteren Quartil oder zwischen dem unteren Quartil und dem Median usw. aussagt. Sie wissen, dass die Häufigkeit zwischen minimalem und unterem Quartil mit der Häufigkeit zwischen unterem Quartil und Median übereinstimmen muss (mit den offensichtlichen Ausnahmen, z. B. wenn Daten auf einem Quartil liegen oder schlimmer noch, wenn zwei Quartile gebunden sind), wissen es aber nicht Welche Werte der Variablen werden diesen Frequenzen zugewiesen? Wir können eine Situation wie diese haben:
X.Y.Y.X.R
Y.
EDIT: Wie @Glen_b sagt, wird dies noch deutlicher, wenn man sich die kumulativen Verteilungen ansieht. Ich habe Gitterlinien hinzugefügt, um die Position der Quartile anzuzeigen, die für die beiden Verteilungen gleich sind, sodass sich ihre empirischen CDFs überschneiden.
R-Code
yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))
x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)
ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n",
main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
lty = "solid", lwd=2, bty="n")
par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")
summary(x)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00
summary(y)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00