Nachweis der LOOCV-Formel

Aus einer Einführung in das statistische Lernen von James et al. Geht hervor, dass die LOOCV-Schätzung (Leave-One-Out-Cross-Validation) durch wobei .

{CV}_{(n)} = \frac{1}{n} \sum_{i = 1}^{n} {MSE}_{i}

$\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i$

{MSE}_{i} = (y_{i} - {\hat{y}}_{i})^{2}

$\text{MSE}_i = (y_i-\hat{y}_i)^2$

Ohne Beweis besagt Gleichung (5.2), dass für eine Regression der kleinsten Quadrate oder des Polynoms (ob dies für die Regression nur einer Variablen gilt, ist mir unbekannt): wobei " ist der - te Einbau Wert von den ursprünglichen kleinsten Quadraten ( keine Ahnung , was das bedeutet, nebenbei gesagt , es verwendet , bedeutet all die Punkte in dem Datensatz?) und ist die Hebelwirkung“ , die definiert ist

{CV}_{(n)} = \frac{1}{n} \sum_{i = 1}^{n} {(\frac{y_{i} - {\hat{y}}_{i}}{1 - h_{i}})}^{2}

$\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\left(\dfrac{y_i - \hat{y}_i}{1-h_i}\right)^2$

{\hat{y}}_{i}

$\hat{y}_i$

i

$i$

h_{i}

$h_i$

h_{i} = \frac{1}{n} + \frac{(x_{i} - \bar{x})^{2}}{\sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}} .

$h_i = \dfrac{1}{n}+\dfrac{(x_i - \bar{x})^2}{\sum\limits_{j=1}^{n}(x_j - \bar{x})^2}\text{.}$

Wie beweist man das?

Mein Versuch: , dass aber auseinander liegen Aus diesem (und wenn ich mich erinnere, gilt diese Formel für nur für die einfache lineare Regression ...) bin ich mir nicht sicher, wie ich fortfahren soll.

{\hat{y}}_{i} = β_{0} + \sum_{i = 1}^{k} β_{k} X_{k} + some polynomial terms of degree \geq 2

$\hat{y}_i = \beta_0 + \sum\limits_{i=1}^{k}\beta_k X_k + \text{some polynomial terms of degree }\geq 2$

h_{i}

$h_i$

— Klarinettist
quelle

Entweder scheinen Ihre Gleichungen für mehr als eine Sache zu verwenden, oder ich bin sehr verwirrt. In jedem Fall wäre zusätzliche Klarheit gut.

i

$i$

— Glen_b

@ Glen_b Ich habe erst gestern von LOOCV erfahren, daher verstehe ich einige Dinge möglicherweise nicht richtig. Soweit ich weiß, haben Sie eine Reihe von Datenpunkten: . Mit LOOCV haben Sie für jede feste (positive ganze Zahl) eine Validierungsmenge und eine Testmenge verwendet, um für jedes ein angepasstes Modell zu generieren . Angenommen, wir passen unser Modell mithilfe einer einfachen linearen Regression mit drei Datenpunkten an: . Wir müssten (Fortsetzung

X = {(x_{i}, y_{i}) : i \in Z^{+}}

$\mathcal{X} = \{(x_i, y_i): i \in \mathbb{Z}^+\}$

k

$k$

V_{k} = {(x_{k}, y_{k})}

$\mathcal{V}_k = \{(x_k, y_k)\}$

T_{k} = X ∖ V_{k}

$\mathcal{T}_k = \mathcal{X}\setminus \mathcal{V}_k$

k

$k$

X = {(0, 1), (1, 2), (2, 3)}

$\mathcal{X} = \{(0, 1), (1, 2), (2,3)\}$

— Klarinettist

@Glen_b und . Anhand der Punkte in können wir feststellen, dass wir mit einer einfachen linearen Regression das Modell . Dann berechnen wir den Verwendung von als Validierungsmenge und erhalten (nur unter Verwendung des angegebenen Punktes) und mit . Okay, vielleicht war die Verwendung des hochgestellten Zeichens nicht die beste Idee - ich werde dies im ursprünglichen Beitrag ändern.

V_{1} = {(0, 1)}

$\mathcal{V}_1 = \{(0, 1)\}$

T_{1} = {(1, 2), (2, 3)}

$\mathcal{T}_1 = \{(1, 2), (2, 3)\}$

T_{1}

$\mathcal{T}_1$

{\hat{y}}_{i} = X + 1

$\hat{y}_i = X + 1$

MSE

$\text{MSE}$

V_{1}

$\mathcal{V}_1$

y_{1} = 1

$y_1 = 1$

{\hat{y}}_{1}^{(1)} = 0 + 1 = 1

$\hat{y}_1^{(1)} = 0 + 1 = 1$

{MSE}_{1} = 0

$\text{MSE}_1 = 0$

— Klarinettist

hier sind einige Skriptum zur Ableitung pages.iu.edu/~dajmcdon/teaching/2014spring/s682/lectures/...

— Xavier Bourret Sicotte

Ich zeige das Ergebnis für jede multiple lineare Regression, unabhängig davon, ob die Regressoren Polynome von oder nicht. Tatsächlich zeigt es ein wenig mehr als das, was Sie gefragt haben, weil es zeigt, dass jedes LOOCV-Residuum mit dem entsprechenden Leverage-Weighted-Residuum aus der vollständigen Regression identisch ist und nicht nur, dass Sie den LOOCV-Fehler wie in (5.2) (dort) erhalten können könnten andere Wege sein, in denen die Durchschnittswerte übereinstimmen, auch wenn nicht jeder Begriff im Durchschnitt gleich ist). $X_t$

Ich erlaube mir, eine leicht angepasste Notation zu verwenden.

Wir zeigen zuerst, dass wobei die Schätzung unter Verwendung aller Daten ist und die Schätzung, wenn sie weggelassen wird , Beobachtung . Es sei als ein Zeilenvektor definiert, so dass . sind die Residuen.

\begin{aligned} \hat{β} - {\hat{β}}_{(t)} & = (\frac{{\hat{u}}_{t}}{1 - h_{t}}) (X^{'} X)^{- 1} X_{t}^{'}, (A) \end{aligned}

$\begin{align*} \hat\beta-\hat\beta_{(t)}&=\left(\frac{\hat u_t}{1-h_t}\right)(X'X)^{-1}X_t', \quad\quad \textrm{(A)} \end{align*}$

\hat{β}

$\hat\beta$

{\hat{β}}_{(t)}

$\hat\beta_{(t)}$

X_{(t)}

$X_{(t)}$

t

$t$

X_{t}

$X_t$

{\hat{y}}_{t} = X_{t} \hat{β}

$\hat y_t=X_t\hat\beta$

{\hat{u}}_{t}

$\hat u_t$

Der Beweis verwendet das folgende matrixalgebraische Ergebnis.

Sei eine nicht singuläre Matrix, ein Vektor und ein Skalar. Wenn dann $A$ $b$ $\lambda$

\begin{aligned} λ & \neq - \frac{1}{b^{'} A^{- 1} b} \end{aligned}

$\begin{align*} \lambda&\neq -\frac{1}{b'A^{-1}b} \end{align*}$

\begin{aligned} (A + λ b b^{'})^{- 1} & = A^{- 1} - (\frac{λ}{1 + λ b^{'} A^{- 1} b}) A^{- 1} b b^{'} A^{- 1} (B) \end{aligned}

$\begin{align*} (A+\lambda bb')^{-1}&=A^{-1}-\left(\frac{\lambda}{1+\lambda b'A^{-1}b}\right)A^{-1}bb'A^{-1}\quad\quad \textrm{(B) }\end{align*}$

Der Beweis von (B) folgt unmittelbar aus der Überprüfung von

\begin{aligned} {A^{- 1} - (\frac{λ}{1 + λ b^{'} A^{- 1} b}) A^{- 1} b b^{'} A^{- 1}} (A + λ b b^{'}) = I . \end{aligned}

$\begin{align*} \left\{A^{-1}-\left(\frac{\lambda}{1+\lambda b'A^{-1}b}\right)A^{-1}bb'A^{-1}\right\}(A+\lambda bb')=I. \end{align*}$

Das folgende Ergebnis ist hilfreich, um (A) zu beweisen

\begin{aligned} (X_{(t)}^{'} X_{(t)})^{- 1} X_{t}^{'} = (\frac{1}{1 - h_{t}}) (X^{'} X)^{- 1} X_{t}^{'} . (C) \end{aligned}

$\begin{align} (X_{(t)}'X_{(t)})^{-1}X_t'=\left(\frac{1}{1-h_t}\right)(X'X)^{-1}X_t'.\quad\quad \textrm{ (C)} \end{align}$

Der Nachweis der (C): durch (b) haben wir, indem , Also finden wir $\sum_{t=1}^TX_t'X_t=X'X$

\begin{aligned} (X_{(t)}^{'} X_{(t)})^{- 1} & = (X^{'} X - X_{t}^{'} X_{t})^{- 1} \\ = (X^{'} X)^{- 1} + \frac{(X^{'} X)^{- 1} X_{t}^{'} X_{t} (X^{'} X)^{- 1}}{1 - X_{t} (X^{'} X)^{- 1} X_{t}^{'}} . \end{aligned}

$\begin{align*} (X_{(t)}'X_{(t)})^{-1}&=(X'X-X_t'X_t)^{-1}\\ &=(X'X)^{-1}+\frac{(X'X)^{-1}X_t'X_t(X'X)^{-1}}{1-X_t(X'X)^{-1}X_t'}. \end{align*}$

\begin{aligned} (X_{(t)}^{'} X_{(t)})^{- 1} X_{t}^{'} & = (X^{'} X)^{- 1} X_{t}^{'} + (X^{'} X)^{- 1} X_{t}^{'} (\frac{X_{t} (X^{'} X)^{- 1} X_{t}^{'}}{1 - X_{t} (X^{'} X)^{- 1} X_{t}^{'}}) \\ = (\frac{1}{1 - h_{t}}) (X^{'} X)^{- 1} X_{t}^{'} . \end{aligned}

$\begin{align*} (X_{(t)}'X_{(t)})^{-1}X_t'&=(X'X)^{-1}X_t'+(X'X)^{-1}X_t'\left(\frac{X_t(X'X)^{-1}X_t'}{1-X_t(X'X)^{-1}X_t'}\right)\\ &=\left(\frac{1}{1-h_t}\right)(X'X)^{-1}X_t'. \end{align*}$

Der Beweis von (A) folgt nun aus (C): Als wir oder Also, where Die letzte Gleichheit folgt aus (C).

\begin{aligned} X^{'} X \hat{β} & = X^{'} y, \end{aligned}

$\begin{align*} X'X\hat\beta&=X'y, \end{align*}$

\begin{aligned} (X_{(t)}^{'} X_{(t)} + X_{t}^{'} X_{t}) \hat{β} & = X_{(t)}^{'} y_{(t)} + X_{t}^{'} y_{t}, \end{aligned}

$\begin{align*} (X_{(t)}'X_{(t)}+X_t'X_t)\hat\beta &=X_{(t)}'y_{(t)}+X_t' y_t, \end{align*}$

\begin{aligned} {I_{k} + (X_{(t)}^{'} X_{(t)})^{- 1} X_{t}^{'} X_{t}} \hat{β} & = {\hat{β}}_{(t)} + (X_{(t)}^{'} X_{(t)})^{- 1} X_{t}^{'} (X_{t} \hat{β} + {\hat{u}}_{t}) . \end{aligned}

$\begin{align*} \left\{I_k+(X_{(t)}'X_{(t)})^{-1}X_t'X_t\right\}\hat\beta&=\hat\beta_{(t)}+(X_{(t)}'X_{(t)})^{-1}X_t'(X_t\hat\beta+\hat u_t). \end{align*}$

\begin{aligned} \hat{β} & = {\hat{β}}_{(t)} + (X_{(t)}^{'} X_{(t)})^{- 1} X_{t}^{'} {\hat{u}}_{t} \\ = {\hat{β}}_{(t)} + (X^{'} X)^{- 1} X_{t}^{'} \frac{{\hat{u}}_{t}}{1 - h_{t}}, \end{aligned}

$\begin{align*} \hat\beta&=\hat\beta_{(t)}+(X_{(t)}'X_{(t)})^{-1}X_t'\hat u_t\\ &=\hat\beta_{(t)}+(X'X)^{-1}X_t'\frac{\hat u_t}{1-h_t}, \end{align*}$

Nun . Multiply durch in (A) durch , fügen auf beiden Seiten und neu anordnen zu bekommen, mit die sich ergebenden Residuen unter Verwendung ( ), oder $h_t=X_t(X'X)^{-1}X_t'$ $X_t$ $y_t$ $\hat u_{(t)}$ $\hat\beta_{(t)}$ $y_t-X_t\hat\beta_{(t)}$

{\hat{u}}_{(t)} = {\hat{u}}_{t} + (\frac{{\hat{u}}_{t}}{1 - h_{t}}) h_{t}

$\hat u_{(t)}=\hat u_t+\left(\frac{\hat u_t}{1-h_t}\right)h_t$

{\hat{u}}_{(t)} = \frac{{\hat{u}}_{t} (1 - h_{t}) + {\hat{u}}_{t} h_{t}}{1 - h_{t}} = \frac{{\hat{u}}_{t}}{1 - h_{t}}

$\hat u_{(t)}=\frac{\hat u_t(1-h_t)+\hat u_th_t}{1-h_t}=\frac{\hat u_t}{1-h_t}$

— Christoph Hanck
quelle

Die Definition für fehlt in Ihrer Antwort. Ich gehe davon aus, dass dies eine Matrix bei der die Zeile entfernt wurde.

X_{(t)}

$X_{(t)}$

X

$X$

X_{t}

$X_t$

— mpiktas

wäre auch hilfreich zu erwähnen, dass ist.

X^{'} X = \sum_{t = 1}^{T} X_{t}^{'} X_{t}

$X'X=\sum_{t=1}^T X_t'X_t$

— mpiktas

@mpiktas, ja, danke für die Hinweise. Ich habe bearbeitet, um den ersten Kommentar zu berücksichtigen. Wo genau würde der Zweite helfen? Oder hinterlasse es einfach in deinem Kommentar?

— Christoph Hanck

Wenn Sie den Beweis von (C) beginnen, schreiben Sie . Das ist ein schöner Trick, aber ich bezweifle, dass der Gelegenheitsleser sich dessen bewusst ist.

(X_{(t)}^{'} X_{(t)})^{- 1} = (X^{'} X - X_{t}^{'} X_{t})^{- 1}

$(X_{(t)}'X_{(t)})^{-1}=(X'X-X_t'X_t)^{-1}$

— mpiktas

Zwei Jahre später ... Ich schätze diese Antwort umso mehr, als ich jetzt eine Abfolge von linearen Modellen für Absolventen durchlaufen habe. Ich lerne dieses Material mit dieser neuen Perspektive neu. Haben Sie Vorschläge für Referenzen (Lehrbücher?), Die Ableitungen durchlaufen, wie Sie sie in dieser Antwort ausführlich beschrieben haben?

— Klarinettist