Konvertieren des Beta-Koeffizienten von der Matrix in die Skalarnotation in der OLS-Regression


7

Ich habe bei meinen ökonometrischen Untersuchungen festgestellt, dass ich mich oft retten kann, wenn ich die Skalarnotation vergesse, indem ich mich an die Matrixnotation erinnere und rückwärts arbeite. Das Folgende verwirrte mich jedoch.

Angesichts der einfachen Schätzung

yi^=β0^+β1^xi1

Wie kommen wir davon?

β^=(XX)1Xy

zu

β^1=i=1n(xix¯)(yiy¯)i=1n(xix¯)2

Ich stecke fest

β^1=i=1nxiyii=1nxi2

Was verwenden Sie für ? Haben Sie eine Spalte mit Einsen für den Intercept-Begriff eingefügt? X
whuber

Ja, angenommen, das Modell ist einfach y_i = beta_0 + \ beta_1x_ {i1}
JuniorBurger

Mein Punkt ist, dass die Zentrierungsmatrix M_0 nicht in die Matrixform aufgenommen wird. Wie leitet man also die \ bar {x} und \ bar {y} ab?
JuniorBurger

Wenn Sie diese Spalte von Einsen eingefügt haben, haben Sie die Umkehrung von richtig berechnet : Es muss eine Matrix sein und sie auf anwenden gibt Ihnen daher einen Vektor. XX2×2Xy2
whuber

Entschuldigung, ich glaube, ich kann die Frage nicht klar formulieren. Meine Hauptfrage ist, woher die Stichprobenmittel von x und y kommen. Wie kommt man ausgehend von der Matrixnotation zur Formel für den Skalar beta_1, Cov (x, y) über Var (x)?
JuniorBurger

Antworten:


4

Lösung

Die Matrixalgebra kann bestürzend sein und, wenn sie nicht elegant ausgeführt wird, eine Menge (überflüssiger) algebraischer Manipulationen erfordern. Die Situation ist jedoch viel einfacher als es aussieht, weil (Erstellen der Matrix durch Einfügen einer Spalte mit Einsen zuerst und anschließend der Spalte mit unabhängigen Werten danach)X(xi)

XX=(nSxSxSxx)

und

Xy=(SySxy)

(Die sind handliche - und ziemlich gebräuchliche - Abkürzungen für Summen der Variablen und ihrer Produkte). Somit sind die normalen Gleichungen für die Schätzungen - wenn sie als simultane lineare Gleichungen geschrieben werden - lediglichSβ^=(β^0,β^1)

nβ^0+Sxβ^1=SySxβ^0+Sxxβ^1=Sxy,

die für und gelöst werden sollen In der Tat müssen Sie dieses Problem nicht von Anfang an lösen : Alles, was Sie an dieser Stelle tun müssen, ist zu überprüfen, welche Formel für tatsächlich funktioniert. Das erfordert nur elementare Algebra. Ich werde es nicht zeigen, weil es einen besseren Weg gibt, das gleiche Ergebnis auf eine viel aufschlussreichere und verallgemeinerbarere Weise zu erzielen.β^0β^1.β^1


Motivation und Verallgemeinerung

Denken Sie daran, dass die normalen Gleichungen abgeleitet werden, indem das Problem der Minimierung der Summe der Quadrate der Residuen betrachtet wird.

SSR=i(yi(β0+β1xi))2.

Das Erscheinungsbild von entspricht einer Spalte von Einsen in während das Erscheinungsbild von einer Spalte in . Im Allgemeinen sind diese Spalten nicht orthogonal. (Wir erinnern uns, dass wir sagen, dass zwei Vektoren orthogonal sind, wenn ihr Punktprodukt Null ist. Geometrisch bedeutet dies, dass sie senkrecht sind. Weitere Informationen hierzu finden Sie in den Referenzen.) Wir können sie orthogonal machen, indem wir ein Vielfaches von einem vom anderen subtrahieren. Am einfachsten ist es, von jedem eine Konstante zu subtrahieren , um das Ergebnis orthogonal zur Konstantenspalte zu machen. das heißt, wir suchen eine Zahl für dieβ0Xβ1(xi)Xxic

0=(1,1,,1)(x1c,x2c,,xnc)=i(1(xic))=Sxnc.

Die eindeutige Lösung ist eindeutig der Mittelwert von Dementsprechend schreiben wir das Modell in Bezug auf die "zentrierten" Variablen Es fordert uns auf, zu minimierenc=Sx/n=x¯,xi.xix¯.

SSR=i(yi(β0+β1x¯+β1(xix¯)))2.

Schreiben Sie der Einfachheit halber den unbekannten konstanten Term als

α=β0+β1x¯,

wir erst einmal die Lösungen und erhalten haben, können wir die Schätzung leicht findenα^β^1

β^0=α^β^1x¯.

In Bezug auf die Unbekannten sind jetzt die Normalgleichungen(α^,β^1)

(n00i(xix¯)2)(α^β^1)=(Syi(xix¯)yi).

Wenn es als zwei simultane lineare Gleichungen geschrieben wird, wird jedes Unbekannte in einer eigenen Gleichung isoliert, die einfach zu lösen ist: Dies ist das, was mit orthogonalen Spalten in erreicht wird. X Insbesondere lautet die Gleichung fürβ^1

i(xix¯)2 β^1=i(xix¯)yi.

Es ist ein kurzer und einfacher algebraischer Schritt von diesem zum gewünschten Ergebnis. (Verwenden Sie die Tatsache, dass )i(xix¯)y¯=0.

Die Verallgemeinerung auf mehrere Variablen erfolgt auf die gleiche Weise: Subtrahieren Sie im ersten Schritt geeignete Vielfache der ersten Spalte von von jeder der anderen Spalten, so dass alle resultierenden Spalten orthogonal zur ersten Spalte sind. (Denken Sie daran, dass es darauf ankommt, eine lineare Gleichung für eine unbekannte Konstante zu lösen was einfach ist.) Wiederholen Sie diesen Vorgang, indem Sie geeignete Vielfache der Sekunde subtrahierenXc,Spalte aus den (neuen) dritten, vierten, ... usw. Spalten, um sie gleichzeitig orthogonal zu den ersten beiden Spalten zu machen. Fahren Sie fort, die Spalten auf diese Weise "auszuräumen", bis sie zueinander orthogonal sind. Die resultierenden Normalgleichungen umfassen jeweils höchstens eine Variable und sind daher einfach zu lösen. Schließlich müssen die Lösungen wieder in die ursprünglichen Variablen konvertiert werden (genau wie Sie die Schätzungen und im normalen Regressionsfall wieder in eine Schätzung von konvertieren müssen ). Bei jedem Schritt des Weges erstellen Sie lediglich neue Gleichungen aus alten und lösen jeweils eine einzelne Variable auf.α^β^1β^0


Verweise

Eine formellere Darstellung dieses Ansatzes zur Lösung der Normalgleichungen finden Sie unter Gram-Schmidt-Orthogonalisierung .

Seine Verwendung in der multiplen Regression wird von Lynne Lamotte in The Gram-Schmidt Construction als Grundlage für lineare Modelle , The American Statistician 68 (1), Februar 2014, diskutiert .

Informationen dazu, wie Sie nur eine einzige Koeffizientenschätzung finden, ohne die anderen berechnen zu müssen, finden Sie in der Analyse unter https://stats.stackexchange.com/a/166718/919 .

Eine geometrische Interpretation finden Sie in meinen Antworten unter https://stats.stackexchange.com/a/97881/919 , https://stats.stackexchange.com/a/113207/919 ,


3

Wenn Sie Regress auf einem konstanten und , Ihre Matrix heißt Daher und Kannst du es von hier nehmen?xiX

(1x11xn)
XX=(nixiixiixi2)
(XX)1=1nixi2(ixi)2(ixi2ixiixin)

Ahh, ich habe gerade ein Video über die Umkehrung einer Matrix gesehen ... klar, mein Wissen über Matrixnotationen / -operationen war nicht auf dem neuesten Stand!
JuniorBurger

@ user212080 Bei einfacher linearer Regression können Sie das Problem manuell lösen, ohne einen Standardausdruck für die Umkehrung einer Matrix zu verwenden. XtXβ=Xty
Sextus Empiricus

2

Für alle anderen da draußen, die damit zu kämpfen haben, habe ich alles Schritt für Schritt unten geschrieben.

Nehmen wir zur Vereinfachung der Erklärung an, wir haben eine Mindeststichprobe von 1 Variable ( ) und nur 2 Beobachtungen ( ); Unsere Schätzung im Skalar lautetxk=1n=2yi^=β0^+β1^xi

β^=(β0^β1^)

y=(yiyi)

X=(1xi1xi)

Deshalb

X=(11xixi)

und;

XX=(ni=1nxii=1nxii=1nxi2)

Denken Sie an die Regeln von \ textbf {inverse Matrizen}, wobei det [.] = Die Determinante der Matrix und adj [.] = Das Adjugat (manchmal auch als Adjunkt bezeichnet) der Matrix.;

(XX)1=1det[XX]×adj[XX]
det[XX]=1adbc=1ni=1nxi2(i=1nxi)2
adj[XX]=(dbca)=(i=1nxi2i=1nxii=1nxin)

Deshalb

(XX)1=1det[XX]×adj[XX]=(i=1nxi2ni=1nxi2(i=1nxi)2i=1nxini=1nxi2(i=1nxi)2i=1nxini=1nxi2(i=1nxi)2nni=1nxi2(i=1nxi)2)

Xy=(11xixi)×(yiyi)=(i=1nyii=1nxiyi)

Deshalb

β^=(XX)1Xy(β0^β1^)=(i=1nxi2ni=1nxi2(i=1nxi)2i=1nxini=1nxi2(i=1nxi)2i=1nxini=1nxi2(i=1nxi)2nni=1nxi2(i=1nxi)2)×(i=1nyii=1nxiyi)

β1^=i=1nxi×i=1nyini=1nxi2(i=1nxi)2+n×i=1nxiyini=1nxi2(i=1nxi)2β1^=ni=1nxiyii=1nxii=1nyini=1nxi2(i=1nxi)2
Erinnerung an , daher (ebenfalls für ); %. 1ni=1nxi=x¯i=1nxi=nx¯yi
β1^=ni=1nxiyinx¯ny¯ni=1nxi2(nx¯)2β1^=ni=1nxiyin2x¯y¯ni=1nxi2n2(x¯)2Dividing by n;β1^=i=1nxiyinx¯y¯i=1nxi2n(x¯)2
β1^=i=1n(xix¯)(yiy¯)i=1n(xix¯)2
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.