Warum summieren sich Residuen in der linearen Regression immer zu Null, wenn ein Schnittpunkt enthalten ist?

14

Ich nehme an einem Kurs über Regressionsmodelle teil, und eine der Eigenschaften, die für die lineare Regression bereitgestellt werden, ist, dass die Residuen immer auf Null summieren, wenn ein Abschnitt enthalten ist.

Kann jemand eine gute Erklärung dafür liefern, warum dies der Fall ist?

regression residuals

— dts86
quelle

3

Sie könnten die in engen Zusammenhang mit ersten Erwägungs mögen , aber einfachere Frage, warum in einer univariaten Probe, die Residuen Sie durch Abziehen der Probe Mittelwert von jedem Wert erhalten auch auf 0 summiert (Versuchen Sie nach der Algebra durch , wenn Sie können.)

— Glen_b - Setzen Sie Monica am

3

Sobald Sie erkennen, dass "Summe zu Null" "orthogonal zu einer der erklärenden Variablen" bedeutet, wird die Antwort geometrisch offensichtlich.

— whuber

18

Dies folgt direkt aus den normalen Gleichungen, dh den Gleichungen, die der OLS-Schätzer löst,

X^{'} \underset{e}{\underset{⏟}{(y - X b)}} = 0

$\mathbf{X}^{\prime} \underbrace{\left( \mathbf{y} - \mathbf{X} \mathbf{b} \right)}_{\mathbf{e}} = 0$

Der Vektor in den Klammern ist natürlich der Restvektor oder die Projektion von auf das orthogonale Komplement des Spaltenraums von , wenn Sie lineare Algebra mögen. Die Aufnahme eines Einsenvektors in die Matrix, die übrigens nicht wie herkömmlich in der ersten Spalte stehen muss, führt zu $\mathbf{y}$ $X$ $\mathbf{X}$

1^{'} e = 0 ⟹ \sum_{i = 1}^{n} e_{i} = 0

$\mathbf{1}^{\prime} \mathbf{e} = 0 \implies \sum_{i=1}^n e_i = 0$

Im Zwei-Variablen-Problem ist dies noch einfacher zu sehen, da die Minimierung der Summe der quadratischen Residuen uns zu bringt

\sum_{i = 1}^{n} (y_{i} - a - b x_{i}) = 0

$\sum_{i=1}^n \left(y_i - a - b x_i \right) = 0$

wenn wir die Ableitung in Bezug auf den Achsenabschnitt nehmen. Daraus erhalten wir dann den bekannten Schätzer

a = \bar{y} - b \bar{x}

$a = \bar{y} - b \bar{x}$

wo wir wieder sehen, dass die Konstruktion unserer Schätzer diese Bedingung auferlegt.

— JohnK
quelle

16

Falls Sie eine eher intuitive Erklärung suchen.

In gewissem Sinne ist das lineare Regressionsmodell nichts anderes als ein schickes Mittel. Um das arithmetische Mittel $\bar{x}$ über einige Werte $x_1, x_2, \dots, x_n$ bestimmen, finden wir einen Wert, der ein Maß für die Zentralität in dem Sinne ist, dass die Summe aller Abweichungen (wobei jede Abweichung als $u_i = x_i - \bar{x}$ ) rechts vom Mittelwert sind gleich der Summe aller Abweichungen links von diesem Mittelwert. Es gibt keinen inhärenten Grund, warum dieses Maß gut ist, geschweige denn, um den Mittelwert einer Stichprobe zu beschreiben, aber es ist sicherlich intuitiv und praktisch. Der wichtige Punkt ist, dass durch die Definition des arithmetischen Mittels auf diese Weise zwangsläufig folgt, dass nach der Bildung des arithmetischen Mittels alle Abweichungen von diesem Mittel per Definition auf Null summiert werden müssen!

Bei der linearen Regression ist dies nicht anders. Wir passen die Linie so an, dass die Summe aller Differenzen zwischen unseren angepassten Werten (die auf der Regressionslinie liegen) und den tatsächlichen Werten, die über der Linie liegen, genau der Summe aller Differenzen zwischen der Regressionslinie und allen Werten unter der Regressionslinie entspricht Linie. Auch hier gibt es keinen inhärenten Grund, warum dies der beste Weg ist, eine Passform zu konstruieren, aber es ist einfach und intuitiv ansprechend. Genau wie beim arithmetischen Mittel: Wenn wir unsere angepassten Werte auf diese Weise konstruieren, folgt zwangsläufig konstruktionsbedingt, dass alle Abweichungen von dieser Linie auf Null summieren müssen, da dies sonst keine OLS-Regession wäre.

— Manuel R
quelle

2

+1 für eine unkomplizierte, einfache und intuitive Antwort!

2

Wenn ein Schnittpunkt in multiplen linearen Regression

{\hat{y}}_{i} = β_{0} + β_{1} x_{i, 1} + β_{2} x_{i, 2} + \dots + β_{p} x_{i, p}

$\hat{y}_i = \beta_0 + \beta_1x_{i,1} + \beta_2x_{i,2} +…+ \beta_px_{i,p}$ in Least Squares Regression, die Summe der Quadrate der Der Fehler wird minimiert.

S S E = \sum_{i = 1}^{n} {(e_{i})}^{2} = \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2} = \sum_{i = 1}^{n} {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{2}

$SSE=\displaystyle\sum\limits_{i=1}^n \left(e_i \right)^2= \sum_{i=1}^n\left(y_i - \hat{y_i} \right)^2= \sum_{i=1}^n\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^2$ Nehmen Sie die partielle Ableitung von SSE in Bezug auf

β_{0}

$\beta_0$ und Setzen auf Null.

\frac{\partial S S E}{\partial β_{0}} = \sum_{i = 1}^{n} 2 {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{1} (- 1) = - 2 \sum_{i = 1}^{n} e_{i} = 0

$\frac{\partial{SSE}}{\partial{\beta_0}} = \sum_{i=1}^n 2\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^1 (-1) =-2\displaystyle\sum\limits_{i=1}^ne_i=0$ Daher summieren sich die Residuen immer zu Null, wenn ein Abschnitt in der linearen Regression enthalten ist.

— DavidCruise
quelle

1

Eine Schlüsselbeobachtung ist , dass , weil das Modell intercept hat, $1$ , die die erste Spalte der Designmatrix $X$ , geschrieben werden kann als

1 = X e,

$1 = Xe,$ wobei

e

$e$ ein Spaltenvektor mit Nullen , aber der ersten Komponente ist. Beachten Sie auch, in Matrixnotation, die Summe der Residuen ist nur

1^{T} (y - \hat{y})

$1^T(y - \hat{y})$ .

Deshalb,

\begin{aligned} 1^{T} (y - \hat{y}) = 1^{T} (I - H) y \\ = & e^{T} X^{T} (I - X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T} X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T}) y \\ = & 0. \end{aligned}

$\begin{align} & 1^T(y - \hat{y}) = 1^T(I - H)y \\ = & e^TX^T(I - X(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^TX(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^T)y \\ = & 0. \end{align}$

— Zhanxiong
quelle

0

A simple derivation using matrix algebra:

$\sum e$ can be written as $1^Te$

Then

$1^Te = 1^T(M_x y)$ wo $M_x$ ist die orthogonale Matrix. Schon seit $M_x$ symmetrisch ist, können wir neu anordnen, so dass $(M_x1)^Ty$

was gleich Null ist, wenn $M_x$ und $1$ sind orthogonal, was der Fall ist, wenn die Matrix der Regressoren $x$ enthält den Achsenabschnitt (ein Vektor von $1$ , tatsächlich).

— Mino
quelle

I don't think this is right.

— Michael R. Chernick

If you explain why then I will be happy to learn something

— Mino

0

$e_i = y_i - [1, X] [a, b] = y_i - Xb - a = v_i - a$
$\frac{d}{da} \sum e_i^2 \propto \sum e_i\cdot 1 = \sum v_i - a = 0$ so $\hat{a} = \frac{1}{n}\sum v_i$
$\sum e_i = \sum_i v_i - a = \sum_i v_i - \frac{n}{n}\sum_i v_i = 0$

..

— Hunaphu
quelle