Dieses Problem hat ein exploratives Gefühl. John Tukey beschreibt in seiner klassischen exploratorischen Datenanalyse (Addison-Wesley 1977) viele Verfahren zur Erforschung der Heteroskedastizität . Vielleicht ist eine Variante seiner " Wanderschemadarstellung " am direktesten nützlich . Dadurch wird eine Variable (wie der vorhergesagte Wert) in Klassen unterteilt und mithilfe von M-Letter-Zusammenfassungen (Verallgemeinerungen von Boxplots) die Position, Verteilung und Form der anderen Variablen für jede Klasse angezeigt. Die M-Letter-Statistiken werden weiter geglättet, um eher allgemeine Muster als zufällige Abweichungen hervorzuheben.
Eine schnelle Version kann durch Ausnutzen der boxplot
Prozedur in gekocht werden R
. Wir veranschaulichen mit simulierten stark heteroskedastischen Daten:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
Lassen Sie uns die vorhergesagten Werte und Residuen aus der OLS-Regression erhalten:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
Hier ist also die wandernde schematische Darstellung unter Verwendung von Behältern mit gleicher Anzahl für die vorhergesagten Werte. Ich benutze lowess
für ein schnelles und schmutziges glattes.
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
Die blaue Kurve glättet die Mediane. Die horizontale Tendenz zeigt an, dass die Regression im Allgemeinen gut passt. Die anderen Kurven glätten die Kastenenden (Quartile) und Zäune (normalerweise extreme Werte). Ihre starke Konvergenz und anschließende Trennung zeugen von der Heteroskedastizität - und helfen uns, sie zu charakterisieren und zu quantifizieren.
(Beachten Sie die nichtlineare Skala auf der horizontalen Achse, die die Verteilung der vorhergesagten Werte widerspiegelt. Mit etwas mehr Arbeit könnte diese Achse linearisiert werden, was manchmal nützlich ist.)