Warum sind rohe Residuen der kleinsten Quadrate in der linearen Regression heteroskedastisch?

7

In meinen Kursnotizen zu einem Regressionskurs zum Nachweis von Heteroskedastizität steht folgendes Zitat:

"Da die Residuen der kleinsten Quadrate selbst im homoskedastischen Fall ungleiche Varianzen aufweisen, ist es vorzuziehen, die standardisierten Residuen zu verwenden."

Meine Intuition sagt mir, dass die LS-Regressionslinie, da sie notwendigerweise durch die Mitte der Datenwolke verläuft, besser für Punkte in der Mitte des kovariaten Raums geeignet ist als für die Schwänze, wodurch wir eine größere Varianz bei den Extremen erhalten.

Trotzdem scheint dies nicht notwendig zu sein . Gleichzeitig frage ich mich, warum wir uns für Homoskedastizität bei standardisierten oder studentisierten Residuen interessieren und nicht für die rohen.

regression residuals heteroscedasticity

— Kuku
quelle

3

Bei Residuen ist die Varianz an den Extremen geringer . Dies liegt daran, dass die extremeren Beobachtungen mehr Einfluss auf die Regressionsfunktion haben. ('extremer' = weiter vom Mittelwert im x-Raum entfernt, gemessen anhand der Entfernung von Mahalanobis) [Spezifische Formeln lassen sich leicht ableiten oder können in anderen Antworten vor Ort gefunden werden.]

— Glen_b -Reinstate Monica

Die Antwort finden Sie hier: stats.stackexchange.com/questions/212656/…

— kjetil b halvorsen

1

Es gibt eine Ableitung der Varianz eines Residuums für den Fall der multiplen Regression und einige zusätzliche Erklärungen hier

— Glen_b -Reinstate Monica

4

Angenommen, das übliche lineare Modell mit konstanter Varianz . Ich werde die Notation (und einige Ergebnisse) von Leverages und den Effekt von Leverage Points verwenden . Das lineare Modell in Matrixform ist wobei ein Vektor von iid Fehlertermen ist. Dann ist die Hutmatrix , und ihre diagonalen Terme sind die Hebel . Wir können zeigen , dass die Varianz der Residuen ist ( zur Erinnerung .) $\sigma^2$

Y = X β + ϵ

$Y= X\beta + \epsilon$

ϵ

$\epsilon$

n

$n$

H = X (X^{T} X)^{- 1} X^{T}

$H=X(X^TX)^{-1}X^T$

h_{i i}

$h_{ii}$

e_{i} = y_{i} - \hat{y_{i}}

$e_i = y_i-\hat{y_i}$

σ^{2} (1 - h_{i i})

$\sigma^2 (1-h_{ii})$

0 < h_{i i} < 1

$0<h_{ii}<1$

Um unter diesem Modell Residuen mit konstanter Varianz zu erhalten, dividieren wir durch : die standardisierten Residuen, die durch haben eine konstante Varianz. Für viele Anwendungen in der Residuenanalyse bevorzugen wir diese standardisierten Residuen, beispielsweise zur Überprüfung der Annahme einer konstanten Varianz. $\sqrt{1-h_{ii}}$ $r_i=\frac{y_i-\hat{y}_i}{\sqrt{1-h_{ii}}}$

EDIT

In einem Kommentar schreibt das OP:

Soweit ich weiß, ist die formale Annahme nicht "Homoskedastizität standardisierter Residuen", sondern nur Residuen für sich.

Dies verwechselt Fehler mit Residuen . Die Fehler sind das nicht beobachtete in der Regressionsgleichung , während Residuen der beobachtete Unterschied zwischen Beobachtung und Modellvorhersage sind. Homoskedastcity bedeutet, dass die Fehler alle die gleiche Varianz haben, nicht dass die Residuen eine konstante Varianz haben. Wenn Sie Residuen verwenden möchten, um die Annahme einer konstanten Varianz zu testen / zu kritisieren, ist es besser, eine Version der Residuen zu verwenden, die eine konstante Varianz aufweisen (unter dem Modell). $\epsilon_i$ $y_i =\beta_0 +\sum_i \beta_i x_i +\epsilon_i$

— kjetil b halvorsen
quelle

In Bezug auf den zweiten Teil meiner Frage kann ich verstehen, warum es bequemer ist, standardisierte Residuen zu verwenden, aber meine Frage ist meiner Meinung nach abstrakter: Warum stört die natürliche Heteroskedastizität unsere Gauß-Markov-Bedingungen und Standardfehlerschätzungen nicht von selbst . Soweit ich weiß, ist die formale Annahme nicht "Homoskedastizität standardisierter Residuen", sondern nur Residuen für sich. Bedecken wir die Sonne nicht einfach mit einem Finger?

— Kuku

1

Angenommen, Sie haben drei : $x$ $-1,0, +1.$

Die entsprechenden abhängigen Variablen sind dort, wo die Zufälligkeit ist. $Y_1,Y_2,Y_3$

Zeichnen Sie nun das Bild. Sie können sehen, warum sich die angepasste Linie nach oben oder unten bewegt , wenn Sie oben oder unten bewegen . (Um nur so viel wie bewegt.) Aber was passiert, wenn Sie oben oder unten bewegen ? Die angepasste Linie bewegt sich nicht nur nach oben oder unten. seine Neigung wird auch größer oder kleiner. Wenn Sie oben oder unten bewegen , wird die Steigung kleiner bzw. größer. Daher neigt die Linie eher dazu, nahe am Datenpunkt zu bleiben, wenn der Wert des Datenpunkts weit vom durchschnittlichen Wert entfernt ist, als wenn er nahe am durchschnittlichen Wert liegt. Daher haben die beobachteten Residuen eine geringere Varianz, wenn der Wert weit vom Durchschnitt entfernt ist $Y_2$ $1/3$ $Y_2$ $Y_3$ $Y_1$ $x$ $x$ $x$ $x$ $x$ Wert als wenn der Wert nahe am durchschnittlichen Wert liegt. $x$ $x$

Die angepassten Werte sind Die Residuen sind also Daraus kann man die Varianzen der Residuen berechnen.

\begin{aligned} ({\hat{Y}}_{1}, {\hat{Y}}_{2}, {\hat{Y}}_{3}) \\ = & (\frac{2}{3} Y_{1} + \frac{1}{3} Y_{2}, \frac{1}{3} (Y_{1} + Y_{2} + Y_{3}), \frac{1}{3} Y_{2} + \frac{2}{3} Y_{3}) . \end{aligned}

$\begin{align} & \left(\widehat Y_1, \widehat Y_2, \widehat Y_3\right) \\[5pt] = {} & \left( \tfrac 2 3 Y_1+ \tfrac 1 3 Y_2, \,\,\, \tfrac 1 3 (Y_1+Y_2 + Y_3), \,\,\, \tfrac 1 3 Y_2 + \tfrac 2 3 Y_3 \right). \end{align}$

\begin{aligned} (Y_{1}, Y_{2}, Y_{3}) - ({\hat{Y}}_{1}, {\hat{Y}}_{2}, {\hat{Y}}_{3}) \\ = & (\frac{1}{3} Y_{1} - \frac{1}{3} Y_{2}, - \frac{2}{3} Y_{1} + \frac{2}{3} Y_{2} - \frac{2}{3} Y_{3}, - \frac{1}{3} Y_{2} + \frac{1}{3} Y_{3}) . \end{aligned}

$\begin{align} & \left( Y_1, Y_2, Y_3 \right) - \left(\widehat Y_1, \widehat Y_2, \widehat Y_3\right) \\[5pt] = {} & \left( \tfrac 1 3 Y_1 - \tfrac 1 3 Y_2, \,\,\, -\tfrac 2 3 Y_1+ \tfrac 2 3 Y_2 - \tfrac 2 3 Y_3, \,\,\, -\tfrac 1 3 Y_2 + \tfrac 1 3 Y_3 \right). \end{align}$

— Michael Hardy
quelle