Nachweis der LOOCV-Formel


18

Aus einer Einführung in das statistische Lernen von James et al. Geht hervor, dass die LOOCV-Schätzung (Leave-One-Out-Cross-Validation) durch wobei .

CV(n)=1ni=1nMSEi
MSEi=(yiy^i)2

Ohne Beweis besagt Gleichung (5.2), dass für eine Regression der kleinsten Quadrate oder des Polynoms (ob dies für die Regression nur einer Variablen gilt, ist mir unbekannt): wobei " ist der - te Einbau Wert von den ursprünglichen kleinsten Quadraten ( keine Ahnung , was das bedeutet, nebenbei gesagt , es verwendet , bedeutet all die Punkte in dem Datensatz?) und ist die Hebelwirkung“ , die definiert istyii

CV(n)=1ni=1n(yiy^i1hi)2
y^iihi
hi=1n+(xix¯)2j=1n(xjx¯)2.

Wie beweist man das?

Mein Versuch: , dass aber auseinander liegen Aus diesem (und wenn ich mich erinnere, gilt diese Formel für nur für die einfache lineare Regression ...) bin ich mir nicht sicher, wie ich fortfahren soll.hi

y^i=β0+i=1kβkXk+some polynomial terms of degree 2
hi

Entweder scheinen Ihre Gleichungen für mehr als eine Sache zu verwenden, oder ich bin sehr verwirrt. In jedem Fall wäre zusätzliche Klarheit gut. i
Glen_b

@ Glen_b Ich habe erst gestern von LOOCV erfahren, daher verstehe ich einige Dinge möglicherweise nicht richtig. Soweit ich weiß, haben Sie eine Reihe von Datenpunkten: . Mit LOOCV haben Sie für jede feste (positive ganze Zahl) eine Validierungsmenge und eine Testmenge verwendet, um für jedes ein angepasstes Modell zu generieren . Angenommen, wir passen unser Modell mithilfe einer einfachen linearen Regression mit drei Datenpunkten an: . Wir müssten (Fortsetzung k V k = { ( x k , y k ) } T k = XV k k X = { ( 0 , 1 ) , ( 1 , 2 ) , ( 2 , 3 ) }X={(xi,yi):iZ+}kVk={(xk,yk)}Tk=XVkkX={(0,1),(1,2),(2,3)}
Klarinettist

@Glen_b und . Anhand der Punkte in können wir feststellen, dass wir mit einer einfachen linearen Regression das Modell . Dann berechnen wir den Verwendung von als Validierungsmenge und erhalten (nur unter Verwendung des angegebenen Punktes) und mit . Okay, vielleicht war die Verwendung des hochgestellten Zeichens nicht die beste Idee - ich werde dies im ursprünglichen Beitrag ändern. T 1 ={(1,2),(2,3)} T 1 y i =X+1MSE V 1 y 1 =1 y ( 1 ) 1 =0+1=1 MSE 1 =0V1={(0,1)}T1={(1,2),(2,3)}T1y^i=X+1MSEV1y1=1y^1(1)=0+1=1MSE1=0
Klarinettist

Antworten:


17

Ich zeige das Ergebnis für jede multiple lineare Regression, unabhängig davon, ob die Regressoren Polynome von oder nicht. Tatsächlich zeigt es ein wenig mehr als das, was Sie gefragt haben, weil es zeigt, dass jedes LOOCV-Residuum mit dem entsprechenden Leverage-Weighted-Residuum aus der vollständigen Regression identisch ist und nicht nur, dass Sie den LOOCV-Fehler wie in (5.2) (dort) erhalten können könnten andere Wege sein, in denen die Durchschnittswerte übereinstimmen, auch wenn nicht jeder Begriff im Durchschnitt gleich ist).Xt

Ich erlaube mir, eine leicht angepasste Notation zu verwenden.

Wir zeigen zuerst, dass wobei die Schätzung unter Verwendung aller Daten ist und die Schätzung, wenn sie weggelassen wird , Beobachtung . Es sei als ein Zeilenvektor definiert, so dass . sind die Residuen.

β^β^(t)=(u^t1ht)(XX)1Xt,(A)
β^β^(t)X(t)tXty^t=Xtβ^u^t

Der Beweis verwendet das folgende matrixalgebraische Ergebnis.

Sei eine nicht singuläre Matrix, ein Vektor und ein Skalar. Wenn dann Abλ

λ1bA1b
(A+λbb)1=A1(λ1+λbA1b)A1bbA1(B) 

Der Beweis von (B) folgt unmittelbar aus der Überprüfung von

{A1(λ1+λbA1b)A1bbA1}(A+λbb)=I.

Das folgende Ergebnis ist hilfreich, um (A) zu beweisen

(X(t)X(t))1Xt=(11ht)(XX)1Xt. (C)

Der Nachweis der (C): durch (b) haben wir, indem , Also finden wir t=1TXtXt=XX

(X(t)X(t))1=(XXXtXt)1=(XX)1+(XX)1XtXt(XX)11Xt(XX)1Xt.
(X(t)X(t))1Xt=(XX)1Xt+(XX)1Xt(Xt(XX)1Xt1Xt(XX)1Xt)=(11ht)(XX)1Xt.

Der Beweis von (A) folgt nun aus (C): Als wir oder Also, where Die letzte Gleichheit folgt aus (C).

XXβ^=Xy,
(X(t)X(t)+XtXt)β^=X(t)y(t)+Xtyt,
{Ik+(X(t)X(t))1XtXt}β^=β^(t)+(X(t)X(t))1Xt(Xtβ^+u^t).
β^=β^(t)+(X(t)X(t))1Xtu^t=β^(t)+(XX)1Xtu^t1ht,

Nun . Multiply durch in (A) durch , fügen auf beiden Seiten und neu anordnen zu bekommen, mit die sich ergebenden Residuen unter Verwendung ( ), oder ht=Xt(XX)1XtXtytu^(t)β^(t)ytXtβ^(t)

u^(t)=u^t+(u^t1ht)ht
u^(t)=u^t(1ht)+u^tht1ht=u^t1ht

Die Definition für fehlt in Ihrer Antwort. Ich gehe davon aus, dass dies eine Matrix bei der die Zeile entfernt wurde. X(t)XXt
mpiktas

wäre auch hilfreich zu erwähnen, dass ist. XX=t=1TXtXt
mpiktas

@mpiktas, ja, danke für die Hinweise. Ich habe bearbeitet, um den ersten Kommentar zu berücksichtigen. Wo genau würde der Zweite helfen? Oder hinterlasse es einfach in deinem Kommentar?
Christoph Hanck

3
Wenn Sie den Beweis von (C) beginnen, schreiben Sie . Das ist ein schöner Trick, aber ich bezweifle, dass der Gelegenheitsleser sich dessen bewusst ist. (X(t)X(t))1=(XXXtXt)1
mpiktas

1
Zwei Jahre später ... Ich schätze diese Antwort umso mehr, als ich jetzt eine Abfolge von linearen Modellen für Absolventen durchlaufen habe. Ich lerne dieses Material mit dieser neuen Perspektive neu. Haben Sie Vorschläge für Referenzen (Lehrbücher?), Die Ableitungen durchlaufen, wie Sie sie in dieser Antwort ausführlich beschrieben haben?
Klarinettist
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.