Warum ist die Steigung immer genau 1, wenn die Fehler auf den Residuen mit OLS zurückgeführt werden?

10

Ich habe mit der Beziehung zwischen den Fehlern und den Residuen mithilfe einiger einfacher Simulationen in R experimentiert. Eine Sache, die ich gefunden habe, ist, dass ich unabhängig von der Stichprobengröße oder der Fehlervarianz immer genau für die Steigung erhalte, wenn Sie das Modell anpassen $1$

e r r o r s \sim β_{0} + β_{1} \times r e s i d u a l s

${\rm errors} \sim \beta_0 + \beta_1 \times {\rm residuals}$

Hier ist die Simulation, die ich gemacht habe:

n <- 10 
s <- 2.7 

x <- rnorm(n) 
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e

model <- lm(y ~ x) 
r <- model$res 

summary( lm(e ~ r) )

eund rsind stark (aber nicht perfekt) korreliert, selbst für kleine Stichproben, aber ich kann nicht herausfinden, warum dies automatisch geschieht. Eine mathematische oder geometrische Erklärung wäre willkommen.

regression least-squares residuals

— GoF_Logistic
quelle

5

Im ebenen Dreieck OXY mit der Basis OX sind die Höhen der Seiten YO und XY die Höhe des Dreiecks selbst. Um, werden diese Höhen durch den Koeffizienten gegeben lm(y~r), lm(e~r)und lm(r~r), die daher alle gleich sein müssen. Letzteres ist offensichtlich . Probieren Sie alle drei Befehle aus, um zu sehen. Damit der letzte funktioniert , müssen Sie eine Kopie von erstellen , z . Weitere Informationen zu geometrischen Regressionsdiagrammen finden Sie unter stats.stackexchange.com/a/113207 .

1

$1$ Rrs<-r;lm(r~s)

— whuber

1

Danke @whuber. Möchten Sie eine Antwort geben, damit ich sie akzeptieren kann, oder diese als Duplikat markieren?

— GoF_Logistic

1

Ich denke nicht, dass es ein Duplikat ist, deshalb habe ich den Kommentar zu einer Antwort erweitert.

— whuber

11

Die Antwort von whuber ist großartig! (+1) Ich habe das Problem mit der mir bekanntesten Notation herausgearbeitet und festgestellt, dass es sich lohnen könnte, die (weniger interessante, routinemäßigere) Ableitung hier aufzunehmen.

Sei das Regressionsmodell, für und das Rauschen. Dann hat die Regression von gegen die Spalten von die normalen Gleichungen was Schätzungen ergibtDaher hat die Regression Residuen für . $y = X \beta^* + \epsilon$ $X \in \mathbb{R}^{n \times p}$ $\epsilon$ $y$ $X$ $X^T\left(y - X \hat\beta\right) = 0,$

\hat{β} = {(X^{T} X)}^{- 1} X^{T} y .

$\hat\beta = \left(X^T X \right)^{-1} X^T y.$

r = y - X \hat{β} = (I - H) y = (I - H) ϵ,

$r = y - X \hat\beta = \left( I - H \right) y = \left( I - H \right) \epsilon,$

H = X (X^{T} X)^{- 1} X^{T}

$H = X (X^T X)^{-1} X^T$

Das Regressieren von auf führt zu einer geschätzten Steigung, die durch da symmetrisch und idempotent ist und fast sicher ist. $\epsilon$ $r$

\begin{aligned} (r^{T} r)^{- 1} r^{T} ϵ & = {({[(I - H) ϵ]}^{T} [(I - H) ϵ])}^{- 1} {[(I - H) ϵ]}^{T} ϵ \\ = \frac{ϵ^{T} {(I - H)}^{T} ϵ}{ϵ^{T} {(I - H)}^{T} (I - H) ϵ} \\ = \frac{ϵ^{T} (I - H) ϵ}{ϵ^{T} (I - H) ϵ} \\ = 1, \end{aligned}

$\begin{align*} (r^T r)^{-1} r^T \epsilon & = \left( \left[ \left(I - H\right) \epsilon \right]^T \left[ \left(I - H\right) \epsilon \right] \right)^{-1} \left[ \left(I - H\right) \epsilon \right]^T \epsilon \\ & = \frac{\epsilon^T \left( I - H \right)^T \epsilon}{\epsilon^T \left( I - H \right)^T \left( I - H \right) \epsilon} \\ & = \frac{\epsilon^T \left( I - H \right) \epsilon}{\epsilon^T \left( I - H \right) \epsilon} \\ & = 1, \end{align*}$

I - H

$I-H$

ϵ \notin i m (X)

$\epsilon \not\in \mathrm{im}(X)$

Ferner gilt dieses Argument auch, wenn wir einen Achsenabschnitt einschließen, wenn wir die Regression der Fehler an den Residuen durchführen, wenn ein Achsenabschnitt in der ursprünglichen Regression enthalten war, da die Kovariaten orthogonal sind (dh , aus den normalen Gleichungen ). $1^T r = 0$

— user795305
quelle

+1 Es ist immer schön zu sehen, dass eine Lösung sorgfältig und klar ausgearbeitet wurde.

— whuber

11

Entfernen Sie zunächst die Konstante aus den Variablen, ohne die konzeptionelle (oder praktische) Allgemeinheit zu verlieren, wie unter Wie genau steuert man "für andere Variablen" beschrieben beschrieben . Sei der Regressor, der Fehler, die Antwort, die Schätzung der kleinsten Quadrate von und die Residuen. Alle diese Vektoren liegen in derselben Ebene, sodass wir Bilder von ihnen zeichnen können. Die Situation kann folgendermaßen dargestellt werden, wobei den Ursprung bezeichnet: $x$ $e$ $Y=\beta x + e$ $b$ $\beta$ $r = Y - bx$ $O$

Dieses Bild wurde beginnend mit und dann der Fehler hinzugefügt , um zu erzeugen . Die Höhe wurde dann auf die Basis und traf sie bei der Schätzung der kleinsten Quadrate . Die Höhe ist eindeutig der und wurde daher mit . $\beta x$ $e$ $Y$ $bx$ $Y-bx$ $r$

Die Basis des Dreiecks ist parallel zum Regressorvektor . Die Höhen der Seiten und sind die Höhe des Dreiecks selbst. Per Definition ist der Rest senkrecht zur Basis: Daher können Abstände von der Basis durch Projektion auf . Somit kann die Höhe des Dreiecks auf eine von drei Arten gefunden werden: Regression von gegen (Finden der Höhe von ); Regression von gegen (Ermittlung der Höhe von ) oder Regression von gegen (Ermittlung der Höhe von ) $x$ $OY$ $(\beta x)Y$ $r$ $r$ $Y$ $r$ $Y$ $e$ $r$ $e$ $r$ $r$ $r$ ). Alle drei Werte müssen alle gleich sein (wie Sie durch Ausführen dieser Regressionen überprüfen können). Letzteres ist offensichtlich , QED . $1$

Für diejenigen, die Algebra bevorzugen, können wir diese geometrische Analyse in eine elegante algebraische Demonstration umwandeln. Beobachten Sie einfach, dass , und alle kongruent modulo des von erzeugten Unterraums sind . Daher müssen sie gleich Projektionen in jedem Raum haben , die orthogonal zu , wie die von erzeugten , wo die Projektion von Koeffizienten hat , QED . (Statistisch gesehen "nehmen" wir einfach die Komponente von in allen drei Ausdrücken heraus, wobei jeweils übrig .) $r$ $e=r+(\beta-b)x$ $Y=e+\beta x = r + (2\beta-b)x$ $x$ $x$ $r$ $r$ $1$ $x$ $r$

— whuber
quelle