Welche Gefahren birgt die Verletzung der Homoskedastizitätsannahme für die lineare Regression?

28

Betrachten Sie als Beispiel den ChickWeightDatensatz in R. Die Varianz wächst offensichtlich mit der Zeit. Wenn ich also eine einfache lineare Regression verwende, wie:

m <- lm(weight ~ Time*Diet, data=ChickWeight)

Meine Fragen:

Welche Aspekte des Modells werden fraglich sein?
Beschränken sich die Probleme darauf, außerhalb des TimeBereichs zu extrapolieren ?
Wie tolerant ist die lineare Regression bei Verstößen gegen diese Annahme (dh wie heteroskedastisch muss sie sein, um Probleme zu verursachen)?

r regression heteroscedasticity assumptions

— Dan M.
quelle

1

Abgesehen von den in den Antworten genannten Dingen haben Ihre Vorhersageintervalle auch nicht die richtige Abdeckung.

— Glen_b -Reinstate Monica

22

Das lineare Modell (oder "gewöhnliche kleinste Quadrate") hat in diesem Fall immer noch seine Unparteilichkeitseigenschaft.

Angesichts der Heteroskedastizität in Bezug auf Fehler haben Sie immer noch unvoreingenommene Parameterschätzungen, verlieren jedoch die Kovarianzmatrix: Ihre Inferenz (dh Parametertests) ist möglicherweise ausgeschaltet. Die häufigste Lösung ist die Verwendung einer robusten Methode zur Berechnung der Kovarianzmatrix, auch bekannt als Standardfehler. Welches Sie verwenden, ist etwas domänenabhängig, aber die Methode von White ist ein Anfang.

Und der Vollständigkeit halber ist die serielle Korrelation von Fehlertermen schlechter, da dies zu verzerrten Parameterschätzungen führt.

— Dirk Eddelbüttel
quelle

Eine robuste Schätzung von Standardfehlern (wie die White-Methode) hilft bei Tests / Konfidenzintervallen für Parameter, aber nicht bei Vorhersageintervallen?

— kjetil b halvorsen

Die Kovarianz des Parametervektors wird bei der Berechnung von Vorhersagen verwendet, sodass Ihre Vorhersageintervalle auch im Allgemeinen verzerrt werden.

— Mustafa S. Eisa

Richtig. Unvoreingenommene Griffe, Inferenz kann ausgeschaltet sein. Die anderen beiden Paras sind jedoch richtig.

— Dirk Eddelbuettel

1

Danke, dass du es verstanden hast und explizit bist (anstatt leise oder vorbeifahrend abzustimmen). Ich war einfach ein bisschen schlampig in meiner Terminologie. Besser jetzt.

— Dirk Eddelbuettel

23

Homoskedastizität ist eine der Gauß-Markov-Annahmen, die erforderlich sind, damit OLS der beste lineare unverzerrte Schätzer (BLAU) ist.

Der Gauß-Markov-Satz sagt uns, dass der Schätzer der kleinsten Quadrate für die Koeffizienten ist $\beta$ ist unbefangen und hat eine minimale Varianz unter allen unbefangenen linearen Schätzern, vorausgesetzt, wir erfüllen alle Gauß-Markov-Annahmen. Weitere Informationen zum Gauß-Markov-Theorem einschließlich des mathematischen Beweises des Theorems finden Sie hier . Außerdem finden Sie hier eine vollständige Liste der OLS-Annahmen mit Erläuterungen, was passiert, wenn sie verletzt werden .

Durch die Zusammenfassung der Informationen auf den oben genannten Websites führt die Heteroskedastizität nicht zu einer Verzerrung der Schätzungen Ihrer Koeffizienten. Bei gegebener Heteroskedastizität können Sie die Varianz-Kovarianz-Matrix jedoch nicht richtig einschätzen. Daher sind die Standardfehler der Koeffizienten falsch. Dies bedeutet, dass man keine t-Statistiken und p-Werte berechnen kann und folglich keine Hypothesentests möglich sind. Insgesamt verliert OLS unter Heteroskedastizität seine Effizienz und ist nicht mehr BLAU.

Heteroskedastizität ist jedoch nicht das Ende der Welt. Glücklicherweise ist die Korrektur der Heteroskedastizität nicht schwierig. Mit dem Sandwich-Schätzer können Sie konsistente Standardfehler für die Koeffizienten schätzen. Die Berechnung der Standardfehler über den Sandwich Estimator ist jedoch mit Kosten verbunden. Der Schätzer ist nicht sehr effizient und Standardfehler können sehr groß sein. Eine Möglichkeit, einen Teil der Effizienz zurückzugewinnen, besteht darin, nach Möglichkeit Standardfehler zu clustern.

Weitere Informationen zu diesem Thema finden Sie auf den oben genannten Websites.

— Simon O'Rourke
quelle

12

Das Fehlen einer Homoskedastizität kann zu unzuverlässigen Standardfehlerschätzungen der Parameter führen. Parameterschätzungen sind unvoreingenommen. Aber die Schätzungen sind möglicherweise nicht effizient (nicht BLAU). Weitere finden Sie unter folgendem Link

— vinux
quelle

12

Es ist gut daran zu denken, dass unverzerrte Schätzer nicht bedeuten, dass das Modell "richtig" ist. In vielen Situationen führt das Kriterium der kleinsten Quadrate für die Schätzung der Regressionskoeffizienten zu einem Modell, das entweder (1) Regressionskoeffizienten aufweist, die nicht die richtige Bedeutung haben, oder (2) Vorhersagen, die dazu tendieren, große Fehler zu minimieren, aber diese ausgleichen es mit vielen kleinen Fehlern. Zum Beispiel glauben einige Analysten, dass auch bei der Umstellung auf $\log(Y)$ Passt das Modell gut an, ist es gültig, vorauszusagen $Y$ Verwendung von OLS, weil Schätzungen unvoreingenommen sind. Dies minimiert die Summe der Fehlerquadrate, verteilt jedoch die Effekte auf die $\beta$ s falsch und führen zu einer nicht wettbewerbsfähigen Summe der absoluten Fehler. Manchmal ist die mangelnde Konstanz der Varianz ein grundlegenderes Modellierungsproblem.

Bei der Betrachtung konkurrierender Modelle (z $Y$ gegen $\log(Y)$ Ordinale Regression) Ich vergleiche gerne die Vorhersagegenauigkeit mit Maßnahmen, die nicht per Definition durch den Anpassungsprozess optimiert wurden.

— Frank Harrell
quelle

1

In den anderen Antworten finden Sie gute Informationen, insbesondere zu Ihrer ersten Frage. Ich dachte, ich würde ein paar ergänzende Informationen zu Ihren letzten beiden Fragen hinzufügen.

Die mit der Heteroskedastizität verbundenen Probleme sind nicht auf die Extrapolation beschränkt. Da in erster Linie Konfidenzintervalle, p-Werte und Vorhersagegrenzen falsch sind, gelten sie für den gesamten Bereich Ihrer Daten.
Genau genommen bestehen die mit der Heteroskedastizität verbundenen Probleme bereits bei geringster Heteroskedastizität. Wie Sie jedoch vermuten, sind die Probleme bei sehr geringer Heteroskedastizität ebenfalls sehr gering. Es gibt keine echte "helle Linie", in der die Heteroskedastizität zu stark wird. Als Faustregel gilt jedoch, dass lineare Modelle bei der größten Varianz nicht zu stark von Heteroskedastizität betroffen sind $\le 4\times$ the smallest variance.

— gung - Reinstate Monica
quelle