Messungen der Restheteroskedastizität


16

Dieser Wikipedia- Link listet eine Reihe von Techniken auf, um die Heteroskedastizität von OLS-Resten zu erkennen. Ich möchte erfahren, welche praktische Technik bei der Erkennung von Regionen, die von Heteroskedastizität betroffen sind, effizienter ist.

Zum Beispiel hat hier die zentrale Region in der OLS-Darstellung "Residuals vs Fitted" eine höhere Varianz als die Seiten der Darstellung (ich bin nicht ganz sicher, aber nehmen wir an, dass dies der Fall ist, um der Frage willen). Anhand der Fehlerbezeichnungen im QQ-Diagramm können Sie feststellen, dass sie mit den Fehlerbezeichnungen in der Mitte des Residuen-Diagramms übereinstimmen.

Aber wie können wir den Residuenbereich quantifizieren, der eine signifikant höhere Varianz aufweist?

Heteroskedastizität


2
Ich bin mir nicht sicher, ob Sie Recht haben, dass es in der Mitte eine höhere Varianz gibt. Die Tatsache, dass sich die Ausreißer in der zentralen Region befinden, scheint mir ein Ergebnis der Tatsache zu sein, dass sich dort die meisten Daten befinden. Dies macht Ihre Frage natürlich nicht ungültig.
Peter Ellis

1
Das qqplot soll die Nichtnormalität der Verteilung und nicht direkt inhomogene Varianzen identifizieren.
Michael R. Chernick

@PeterEllis Ja, ich habe in der Frage angegeben, dass ich nicht sicher bin, ob die Varianz unterschiedlich ist, aber ich hatte dieses Diagnosebild zur Hand und es könnte tatsächlich eine Heteroskedastizität im Beispiel geben.
Robert Kubrick

@MichaelChernick Ich habe das qqplot nur erwähnt, um zu veranschaulichen, wie sich die höchsten Fehler in der Mitte des Residuenplots zu konzentrieren scheinen, was möglicherweise auf eine höhere Varianz in diesem Bereich hinweist.
Robert Kubrick

Antworten:


15

Dieses Problem hat ein exploratives Gefühl. John Tukey beschreibt in seiner klassischen exploratorischen Datenanalyse (Addison-Wesley 1977) viele Verfahren zur Erforschung der Heteroskedastizität . Vielleicht ist eine Variante seiner " Wanderschemadarstellung " am direktesten nützlich . Dadurch wird eine Variable (wie der vorhergesagte Wert) in Klassen unterteilt und mithilfe von M-Letter-Zusammenfassungen (Verallgemeinerungen von Boxplots) die Position, Verteilung und Form der anderen Variablen für jede Klasse angezeigt. Die M-Letter-Statistiken werden weiter geglättet, um eher allgemeine Muster als zufällige Abweichungen hervorzuheben.

Eine schnelle Version kann durch Ausnutzen der boxplotProzedur in gekocht werden R. Wir veranschaulichen mit simulierten stark heteroskedastischen Daten:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Daten

Lassen Sie uns die vorhergesagten Werte und Residuen aus der OLS-Regression erhalten:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

Hier ist also die wandernde schematische Darstellung unter Verwendung von Behältern mit gleicher Anzahl für die vorhergesagten Werte. Ich benutze lowessfür ein schnelles und schmutziges glattes.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

Wanderschematische Darstellung

Die blaue Kurve glättet die Mediane. Die horizontale Tendenz zeigt an, dass die Regression im Allgemeinen gut passt. Die anderen Kurven glätten die Kastenenden (Quartile) und Zäune (normalerweise extreme Werte). Ihre starke Konvergenz und anschließende Trennung zeugen von der Heteroskedastizität - und helfen uns, sie zu charakterisieren und zu quantifizieren.

(Beachten Sie die nichtlineare Skala auf der horizontalen Achse, die die Verteilung der vorhergesagten Werte widerspiegelt. Mit etwas mehr Arbeit könnte diese Achse linearisiert werden, was manchmal nützlich ist.)


6
Nettes Beispiel, ich hätte gedacht, dass einige Implementierungen von laufenden Quantilen in R verfügbar sind (um das Problem mit Bins insgesamt zu vermeiden). Erinnert mich irgendwie an Sackgärten . Siehe auch Rob Hyndmans Erweiterung in seinem Rainbow-Paket.
Andy W

9

Typischerweise wird die Heteroskedastizität unter Verwendung eines Breusch-Pagan-Ansatzes modelliert. Die Residuen Ihrer linearen Regression werden dann quadriert und auf die Variablen in Ihrem ursprünglichen linearen Modell zurückgeführt. Die letztere Regression wird als Hilfsregression bezeichnet .

nRein2nRein2R2

Für Ihre Zwecke können Sie sich auf die einzelnen Koeffizienten dieses Modells konzentrieren, um zu sehen, welche Variablen die Ergebnisse mit hoher oder niedriger Varianz am besten vorhersagen.


1
+1 Bitte beachten Sie jedoch, dass solche Tests in Bezug auf die von ihnen feststellbare Heteroskedastizität begrenzt sind. Beispiele wie das in meiner Antwort gezeigte können durchgehen, obwohl die Heteroskedastizität extrem stark ist.
Whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.