Zeigen, dass der OLS-Schätzer skalierungsäquivariante ist?


11

Ich habe keine formale Definition der Skalenäquivarianz, aber hier ist die Einführung in das statistische Lernen dazu. 217:

Die Standardkoeffizienten der kleinsten Quadrate ... sind skalierungsäquivariante : Das Multiplizieren von Xj mit einer Konstanten c führt einfach zu einer Skalierung der Koeffizientenschätzungen der kleinsten Quadrate um einen Faktor von 1/c .

Nehmen wir der Einfachheit halber das allgemeine lineare Modell , wobei , ist eine Matrix (wobei ) mit allen Einträgen iny=Xβ+ϵyRNXN×(p+1)p+1<NR ,βRp+1 , undϵ ist einN - dimensionaler Vektor von reellwertigen Zufallsvariablen mitE[ϵ]=0N×1 .

Von OLS - Schätzung wissen wir , dass , wenn X hat die volle (Spalte)

β^X=(XTX)1XTy.
Angenommen, wir multiplizieren eine Spalte von X , sagen wir xk für einige k{1,2,,p+1} , mit einer Konstanten c0 . Dies wäre äquivalent zur Matrix
X[111c11]S=[x1x2cxkxp+1]X~
wobei alle anderen Einträge derobigenMatrix0sind undcimk-ten Eintrag der Diagonale vonS steht. Dann~Xhatvollen (Spalte) Rang als gut, und die resultierenden OLS Schätzer~Xals neue Designmatrix ist β~X=(~S0ckSX~X~ Nach einiger Arbeit kann man zeigen, dass ˜XT.
β^X~=(X~TX~)1X~Ty.
und ˜XTy=[x T 1 yx T 2 ycx T k yx T p + 1 y]
X.~T.X.~=[x1T.x1x1T.x2cx1T.xkx1T.xp+1x2T.x1x2T.x2cx2T.xkx2T.xp+1cxkT.x1cxkT.x2c2xkT.xkcxkT.xp+1xp+1T.x1xp+1T.x2cxp+1T.xp+1xp+1T.xp+1]]
X.~T.y=[x1T.yx2T.ycxkT.yxp+1T.y]]
Wie gehe ich von hier den Anspruch oben (dh , dass zitierte zeigen β)? Mir ist nicht klar, wie man berechnet( ˜ X T ˜ X )-1.β^X.~=1cβ^X.(X.~T.X.~)- -1

Ich denke, dein ist nicht richtig, es fehlt ein c- Multiplikator in einer ganzen Reihe. X~TX~c
Firebug

1
Auch bedenken , ist die Behauptung , β k , neu = 1, nicht jederβ. β^k,new=1cβ^k,oldβ
Firebug

@ Firebug Ja, das habe ich gerade herausgefunden. Ich poste eine Antwort.
Klarinettist

2
Sie können all diese Algebra durch eine viel einfachere Einheitenanalyse ersetzen , da das Multiplizieren von mit c lediglich seine Maßeinheit ändert und daher die entsprechende Änderung der mit seinem Koeffizienten β j verbundenen Einheiten darin besteht, sie durch c zu teilen . Das beweist nicht , βX.jcβjc muss geteilt werden c , leider. Allerdings könnte diese Gedankenkette erinnern uns darandass multiple Regression durch eine Reihe von Regressionen durchgeführt gegen eine Regressor zu einem Zeitpunkt ist, wo klar istdass β j durch unterteilt c , und soder Beweis vollständig.β^jcβ^jc
whuber

@whuber, obwohl die Intuition für das Ergebnis klar ist, scheint es einfach ein bisschen Algebra zu geben, um einen Beweis zu liefern. Schließlich muss der Skalierungsfaktor invertiert werden. c
user795305

Antworten:


11

Da es sich bei der Behauptung im Zitat um eine Sammlung von Aussagen zur Neuskalierung der Spalten von , können Sie sie auch alle auf einmal beweisen. In der Tat braucht es keine Arbeit mehr, um eine Verallgemeinerung der Behauptung zu beweisen:X.

Wenn ist rechts multipliziert mit einer invertierbaren Matrix A , dann wird die neue Koeffizientenschätzung β A gleichX.EINβ^EIN durch Links multipliziertA-1.β^EIN- -1

Die einzigen algebraischen Fakten, die Sie benötigen, sind die (leicht zu beweisenden, bekannten), dass für alle Matrizen A B und ( A B ) - 1 = B - 1 A - 1 für invertierbare Matrizen A und B . (Eine subtilere Version der letzteren wird benötigt, wenn mit verallgemeinerten Inversen gearbeitet wird: für invertierbares A und B und jedes X , ( A X B )(EINB.)'=B.'EIN'EINB.(EINB.)- -1=B.- -1EIN- -1EINB.EINB.X. )(EINX.B.)- -=B.- -1X.- -EIN- -1


Proof algebraisch : β A = ( ( X A ) ' ( ( X A ) ) - ( X A ) ' y = A - 1 ( X ' X ) - ( A ' ) - 1 A ' y = A - 1 β ,

β^EIN=((X.EIN)'((X.EIN))- -(X.EIN)'y=EIN- -1(X.'X.)- -(EIN')- -1EIN'y=EIN- -1β^,

QED. (Damit dieser Beweis vollständig allgemeinen sein, die - oberer Index bezieht sich auf eine verallgemeinerte inverse) .- -


Beweis durch Geometrie :

Gegeben Basen und E n von R n und R p jeweils X für eine lineare Transformation von R p bis R n . Die Rechtsmultiplikation von X mit A kann so betrachtet werden, dass diese Transformation fest bleibt, aber E p zu A E p (dh zu den Spalten von A ) geändert wird . Nach dieser Änderung der Grundlage der Darstellung der jeder Vektor & bgr;RE.pE.nR.nR.pX.R.pR.nX.EINE.pEINE.pEIN muss sich durch Linksmultiplikation mit A - 1 ,QEDändern.β^R.pEIN- -1

(Dieser Beweis funktioniert unverändert, auch wenn nicht invertierbar ist.)X.'X.


Das Zitat bezieht sich speziell auf den Fall von Diagonalmatrizen mit A i i = 1 für i j und A j j = c .EINEINichich=1ichjEINjj=c


Verbindung mit kleinsten Quadraten

Das Ziel hierbei ist es, erste Prinzipien zu verwenden, um das Ergebnis zu erhalten, wobei das Prinzip das der kleinsten Quadrate ist: Schätzen von Koeffizienten, die die Summe der Quadrate von Residuen minimieren.

Auch hier erweist sich der Nachweis einer (großen) Verallgemeinerung als nicht schwieriger und eher aufschlussreich. Angenommen, ist eine beliebige Abbildung (linear oder nicht) von reellen Vektorräumen, und angenommen, Q ist eine beliebige reelle Funktion auf W n . Sei U V p die (möglicherweise leere) Menge von Punkten v, für die

ϕ::V.pW.n
Q.W.nU.V.pv minimiert ist. Q.(ϕ(v))

Ergebnis: , das ausschließlich durch Q und ϕ bestimmt wird , hängt nicht von einer Wahl der Basis abU.Q.ϕ die zur Darstellung von Vektoren in V p verwendet wird .E.pV.p

Beweis: QED.

Es gibt nichts zu beweisen!

Anwendung des Ergebnisses: Sei eine positive semidefinite quadratische Form auf R n , sei y R n und sei ϕ eine lineare Karte, die durch X dargestellt wird, wenn Basen von V p = R p und W n = R n gewählt werden. Definiere Q ( x ) = F ( y , x ) . Wählen Sie eine Basis von R p ist die Darstellung einiger v U.F.R.nyR.nϕX.V.p=R.pW.n=R.nQ.(x)=F.(y,x)R.p und nehmen wir an ββ^vU. auf dieser Basis. Dies ist der kleinsten Quadrate : minimiert den quadrierten Abstand F ( y , x ) . Da X eine lineare Abbildung, die Basis des Ändern R p entsprechen rechte Multiplikation X durch eine invertierbare Matrix A . Das wird linksmehrfach β von A - 1 , QED .x=X.β^F.(y,x)X.R.pX.EINβ^EIN- -1


6

Definieren des kleinsten Quadrate - Schätzer β = arg min β R py - X β 2 2 , wobei die Designmatrix X R n x p ist voller Rang. Angenommen, die Skalierungsmatrix S R p ×β^=argMindestβR.py- -X.β22X.R.n×p ist invertierbar.S.R.p×p

Definieren Sie diesen neuen skalierten Schätzer . Dies bedeutet, dass y - X S ˜ α2 2 < y - X S α 2 2 für alle α ˜ α ist . Definieren von ˜ β = S ˜ αα~=argMindestαR.py- -X.S.α22

y- -X.S.α~22<y- -X.S.α22
αα~β~=S.α~ wir , können wir diese angezeigte Ungleichung wie folgt umschreiben für alle β ˜ β. Daher ~ β = arg min β R py - X β 2 2 , und es folgtdass die LeastSquaresSchätz β = ~ β = S ~ α
y- -X.β~22<y- -X.β22
ββ~β~=argMindestβR.py- -X.β22 Aufgrund der Invertierbarkeit der SkalierungsmatrixS.
β^=β~=S.α~.
S.α~=S.- -1β^β^kth1c

1
arg min

Ich habe es etwas anders geschrieben, was die Schritte klarer machen sollte.
user795305

Das ist wirklich klug. (+1)
Klarinettist

4

Ich habe das herausgefunden, nachdem ich die Frage gestellt hatte. Wenn meine Arbeit jedoch korrekt ist, habe ich die Behauptung falsch interpretiert. Das1c Die Skalierung erfolgt nur für die eine Komponente von β entsprechend der Spalte von X. multipliziert mit c.

Beachte das S.ist in der obigen Notation diagonal und symmetrisch (p+1)×(p+1) Matrix und hat inverse (weil es diagonal ist)

S.- -1=[1111c11]].
Beachten Sie, dass (X.~T.X.~)- -1 ist ein (p+1)×(p+1)Matrix. Nehmen wir das an
(X.T.X.)- -1=[z1z2zkzp+1]].
Dann folgt daraus
(X.~T.X.~)- -1=[(X.S.)T.X.S.]]- -1=(S.T.X.T.X.S.)- -1=(S.X.T.X.S.)- -1=S.- -1(X.T.X.)- -1S.- -1.
Daher,
S.- -1(X.T.X.)- -1=[z1z21czkzp+1]]
und multiplizieren Sie dies mit S.- -1 hat einen ähnlichen Effekt wie das Multiplizieren X. durch S. tat - es bleibt das gleiche, außer 1czk wird multipliziert mit 1c::
S.- -1(X.T.X.)- -1S.- -1=[z1z21c2zkzp+1]].
Deshalb,
β^X.~=S.- -1(X.T.X.)- -1S.- -1(X.S.)T.y=[z1z21c2zkzp+1]][x1T.yx2T.ycxkT.yxp+1T.y]]=[z1x1T.yz2x2T.y1czkxkT.yzp+1xp+1T.y]]
wie gewünscht.

Es gibt einen Tippfehler S.- -1(X.T.X.)- -1S.- -1(X.S.)y. Sie müssen transponieren(X.S.).
JohnK

3

Der trivialste Beweis aller Zeiten

Sie beginnen mit Ihrer linearen Gleichung:

Y.=X.β+ε
Jetzt möchten Sie die Skalierung Ihrer Regressoren ändern, möglicherweise vom metrischen System in imperial konvertieren, Kilogramm in Pfund, Meter in Yards usw. kennen. Sie haben also die Konvertierungsmatrix erstellt S.=dicheinG(s1,s1,,sn) wo jeder sich ist der Umrechnungskoeffizient für Variable (Spalte) ich in der Entwurfsmatrix X..

Schreiben wir die Gleichung neu:

Y.=(X.S.)(S.- -1β)+ε

Jetzt ist völlig klar, dass die Skalierung die Eigenschaft der Linearität Ihrer Gleichung ist, nicht die OLS-Methode zur Schätzung von Koeffizienten. Unabhängig von der Schätzmethode mit linearer Gleichung haben Sie es, wenn die Regressoren skaliert werden alsX.S. Ihre neuen Koeffizienten sollten wie folgt skaliert werden S.- -1β

Beweis durch Algebra nur für OLS

Die Skalierung ist folgende:

Z.=X.dicheinG(s1,s2,...,sn)
wo sich Skalierungsfaktor jeder Variablen (Spalte) und Z. eine skalierte Version von X.. Nennen wir die diagonale SkalenmatrixS.dicheinG(s1,s2,...,sn). Ihr OLS-Schätzer ist
β^=(X.T.X.)- -1X.T.Y.
Lassen Sie uns die skalierte Matrix einstecken Z. Anstatt von X.und verwenden Sie eine Matrixalgebra :
(Z.T.Z.)- -1Z.T.Y.=(S.T.X.T.X.S.)- -1S.T.X.T.Y.=S.- -1(X.T.X.)- -1S.- -1S.X.T.Y.=S.- -1(X.T.X.)- -1X.T.Y.=S.- -1β^
Sie sehen also, wie der neue Koeffizient wie erwartet einfach der alte Koeffizient ist.

2
Ich mag Ihre Ansätze, bin aber nicht überzeugt von "dem trivialsten Beweis aller Zeiten". Sie haben implizit angenommen und müssen noch zeigen, dass das umgeschriebene Modell dieselbe Anpassung wie das Original haben muss. Um es genauer auszudrücken: Wenn wir ein Anpassungsverfahren als Funktion betrachtenδ::M.R.p, wo M. ist die Menge aller möglichen Daten (die wir als geordnetes Paar schreiben könnten (X.,Y.)) und R.p Ist die Menge aller möglichen Koeffizientenschätzungen, müssen Sie dies nachweisen δ(X.,Y.)=S.- -1δ(X.S.,Y.) für alle invertierbar S., alle X., und alles Y.. (Das ist nicht immer wahr!)
whuber

@whuber, eigentlich ist es umgekehrt: Das angemessene Anpassungsverfahren sollte diese Bedingung erfüllen, andernfalls führt eine einfache Änderung der Maßeinheit zu einer anderen Prognose / Schätzung. Ich werde meine Antwort aktualisieren und ein wenig darüber nachdenken
Aksakal

Ich stimme zu - aber ich kann mir Ausnahmen in den Fällen vorstellen, in denen X.ist nicht von vollem Rang. Das hat mir nahegelegt, dass die Situation nicht ganz so trivial ist, wie es scheint.
whuber

3
kaiserlicher Gefährte, nicht königlich ...: D (Schöne Antwort, +1)
usεr11852 sagt Reinstate Monic

@ usεr11852, ich habe heute etwas gelernt :)
Aksakal

2

Eine einfache Möglichkeit, dieses Ergebnis zu erzielen, besteht darin, sich daran zu erinnern y^ ist die Projektion von y auf dem Spaltenraum von X.. β^ ist der Vektor der Koeffizienten, wenn y^ wird als lineare Kombination der Spalten von ausgedrückt X.. Wenn eine Spalte um einen Faktor skaliert istcist klar, dass der entsprechende Koeffizient in der Linearkombination um skaliert werden muss 1/.c.

Lassen bich seien die Werte von β^ und einich sind die Werte der OLS-Lösung, wenn eine Spalte mit skaliert wird c.

b1x1+...+bichxich+...+bmxm=ein1x1+...einich(cxich)+...+einnxn

impliziert, dass bj=einj wo jich und bich=einichcunter der Annahme, dass die Spalten von X. sind linear unabhängig.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.