Warum summieren sich Residuen in der linearen Regression immer zu Null, wenn ein Schnittpunkt enthalten ist?


14

Ich nehme an einem Kurs über Regressionsmodelle teil, und eine der Eigenschaften, die für die lineare Regression bereitgestellt werden, ist, dass die Residuen immer auf Null summieren, wenn ein Abschnitt enthalten ist.

Kann jemand eine gute Erklärung dafür liefern, warum dies der Fall ist?


3
Sie könnten die in engen Zusammenhang mit ersten Erwägungs mögen , aber einfachere Frage, warum in einer univariaten Probe, die Residuen Sie durch Abziehen der Probe Mittelwert von jedem Wert erhalten auch auf 0 summiert (Versuchen Sie nach der Algebra durch , wenn Sie können.)
Glen_b - Setzen Sie Monica am

3
Sobald Sie erkennen, dass "Summe zu Null" "orthogonal zu einer der erklärenden Variablen" bedeutet, wird die Antwort geometrisch offensichtlich.
whuber

Antworten:


18

Dies folgt direkt aus den normalen Gleichungen, dh den Gleichungen, die der OLS-Schätzer löst,

X(yXb)e=0

Der Vektor in den Klammern ist natürlich der Restvektor oder die Projektion von auf das orthogonale Komplement des Spaltenraums von X , wenn Sie lineare Algebra mögen. Die Aufnahme eines Einsenvektors in die X- Matrix, die übrigens nicht wie herkömmlich in der ersten Spalte stehen muss, führt zuyXX

1e=0i=1nei=0

Im Zwei-Variablen-Problem ist dies noch einfacher zu sehen, da die Minimierung der Summe der quadratischen Residuen uns zu bringt

i=1n(yiabxi)=0

wenn wir die Ableitung in Bezug auf den Achsenabschnitt nehmen. Daraus erhalten wir dann den bekannten Schätzer

a=y¯bx¯

wo wir wieder sehen, dass die Konstruktion unserer Schätzer diese Bedingung auferlegt.


16

Falls Sie eine eher intuitive Erklärung suchen.

In gewissem Sinne ist das lineare Regressionsmodell nichts anderes als ein schickes Mittel. Um das arithmetische Mittel x¯ über einige Werte x1,x2,,xn bestimmen, finden wir einen Wert, der ein Maß für die Zentralität in dem Sinne ist, dass die Summe aller Abweichungen (wobei jede Abweichung als ui=xix¯) rechts vom Mittelwert sind gleich der Summe aller Abweichungen links von diesem Mittelwert. Es gibt keinen inhärenten Grund, warum dieses Maß gut ist, geschweige denn, um den Mittelwert einer Stichprobe zu beschreiben, aber es ist sicherlich intuitiv und praktisch. Der wichtige Punkt ist, dass durch die Definition des arithmetischen Mittels auf diese Weise zwangsläufig folgt, dass nach der Bildung des arithmetischen Mittels alle Abweichungen von diesem Mittel per Definition auf Null summiert werden müssen!

Bei der linearen Regression ist dies nicht anders. Wir passen die Linie so an, dass die Summe aller Differenzen zwischen unseren angepassten Werten (die auf der Regressionslinie liegen) und den tatsächlichen Werten, die über der Linie liegen, genau der Summe aller Differenzen zwischen der Regressionslinie und allen Werten unter der Regressionslinie entspricht Linie. Auch hier gibt es keinen inhärenten Grund, warum dies der beste Weg ist, eine Passform zu konstruieren, aber es ist einfach und intuitiv ansprechend. Genau wie beim arithmetischen Mittel: Wenn wir unsere angepassten Werte auf diese Weise konstruieren, folgt zwangsläufig konstruktionsbedingt, dass alle Abweichungen von dieser Linie auf Null summieren müssen, da dies sonst keine OLS-Regession wäre.


2
+1 für eine unkomplizierte, einfache und intuitive Antwort!

2

Wenn ein Schnittpunkt in multiplen linearen Regression

y^i=β0+β1xi,1+β2xi,2++βpxi,p
in Least Squares Regression, die Summe der Quadrate der Der Fehler wird minimiert.
SSE=i=1n(ei)2=i=1n(yiyi^)2=i=1n(yiβ0β1xi,1β2xi,2βpxi,p)2
Nehmen Sie die partielle Ableitung von SSE in Bezug aufβ0und Setzen auf Null.
SSEβ0=i=1n2(yiβ0β1xi,1β2xi,2βpxi,p)1(1)=2i=1nei=0
Daher summieren sich die Residuen immer zu Null, wenn ein Abschnitt in der linearen Regression enthalten ist.


1

Eine Schlüsselbeobachtung ist , dass , weil das Modell intercept hat, 1 , die die erste Spalte der Designmatrix X , geschrieben werden kann als

1=Xe,
wobei e ein Spaltenvektor mit Nullen , aber der ersten Komponente ist. Beachten Sie auch, in Matrixnotation, die Summe der Residuen ist nur 1T(yy^) .

Deshalb,

1T(yy^)=1T(IH)y=eTXT(IX(XTX)1XT)y=eT(XTXTX(XTX)1XT)y=eT(XTXT)y=0.


0

A simple derivation using matrix algebra:

e can be written as 1Te

Then

1Te=1T(Mxy) wo Mxist die orthogonale Matrix. Schon seitMx symmetrisch ist, können wir neu anordnen, so dass (Mx1)Ty

was gleich Null ist, wenn Mx und 1 sind orthogonal, was der Fall ist, wenn die Matrix der Regressoren x enthält den Achsenabschnitt (ein Vektor von 1, tatsächlich).


I don't think this is right.
Michael R. Chernick

If you explain why then I will be happy to learn something
Mino

0
  1. ei=yi[1,X][a,b]=yiXba=via
  2. ddaei2ei1=via=0 so a^=1nvi
  3. ei=ivia=ivinnivi=0

..

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.