Lösung
Die Matrixalgebra kann bestürzend sein und, wenn sie nicht elegant ausgeführt wird, eine Menge (überflüssiger) algebraischer Manipulationen erfordern. Die Situation ist jedoch viel einfacher als es aussieht, weil (Erstellen der Matrix durch Einfügen einer Spalte mit Einsen zuerst und anschließend der Spalte mit unabhängigen Werten danach)X.(xich)
X.'X.= (nS.xS.xS.x x)
und
X.'y= (S.yS.x y)
(Die sind handliche - und ziemlich gebräuchliche - Abkürzungen für Summen der Variablen und ihrer Produkte). Somit sind die normalen Gleichungen für die Schätzungen - wenn sie als simultane lineare Gleichungen geschrieben werden - lediglichS.∗β^= (β^0,β^1)
nβ^0+S.xβ^1=S.yS.xβ^0+S.x xβ^1=S.x y,
die für und gelöst werden sollen In der Tat müssen Sie dieses Problem nicht von Anfang an lösen : Alles, was Sie an dieser Stelle tun müssen, ist zu überprüfen, welche Formel für tatsächlich funktioniert. Das erfordert nur elementare Algebra. Ich werde es nicht zeigen, weil es einen besseren Weg gibt, das gleiche Ergebnis auf eine viel aufschlussreichere und verallgemeinerbarere Weise zu erzielen.β^0β^1.β^1
Motivation und Verallgemeinerung
Denken Sie daran, dass die normalen Gleichungen abgeleitet werden, indem das Problem der Minimierung der Summe der Quadrate der Residuen betrachtet wird.
SSR =∑ich(yich- ((β0+β1xich) )2.
Das Erscheinungsbild von entspricht einer Spalte von Einsen in während das Erscheinungsbild von einer Spalte in . Im Allgemeinen sind diese Spalten nicht orthogonal. (Wir erinnern uns, dass wir sagen, dass zwei Vektoren orthogonal sind, wenn ihr Punktprodukt Null ist. Geometrisch bedeutet dies, dass sie senkrecht sind. Weitere Informationen hierzu finden Sie in den Referenzen.) Wir können sie orthogonal machen, indem wir ein Vielfaches von einem vom anderen subtrahieren. Am einfachsten ist es, von jedem eine Konstante zu subtrahieren , um das Ergebnis orthogonal zur Konstantenspalte zu machen. das heißt, wir suchen eine Zahl für dieβ0X.β1(xich)X.xichc
0 = ( 1 , 1 , … , 1 ) ⋅ (x1- c ,x2- c , … ,xn- c ) =∑ich( 1 (xich- c ) ) = S.x - n c .
Die eindeutige Lösung ist eindeutig der Mittelwert von Dementsprechend schreiben wir das Modell in Bezug auf die "zentrierten" Variablen Es fordert uns auf, zu minimierenc = S.x / n =x¯,xich.xich- -x¯.
SSR =∑ich(yich- ((β0+β1x¯+β1(xich- -x¯) ) )2.
Schreiben Sie der Einfachheit halber den unbekannten konstanten Term als
α =β0+β1x¯,
wir erst einmal die Lösungen und erhalten haben, können wir die Schätzung leicht findenα^β^1
β^0=α^- -β^1x¯.
In Bezug auf die Unbekannten sind jetzt die Normalgleichungen(α^,β^1)
(n00∑ich(xich- -x¯)2) (α^β^1) = (S.y∑ich(xich- -x¯)yich) .
Wenn es als zwei simultane lineare Gleichungen geschrieben wird, wird jedes Unbekannte in einer eigenen Gleichung isoliert, die einfach zu lösen ist: Dies ist das, was mit orthogonalen Spalten in erreicht wird. X. Insbesondere lautet die Gleichung fürβ^1
∑ich(xich- -x¯)2 β^1=∑ich(xich- -x¯)yich.
Es ist ein kurzer und einfacher algebraischer Schritt von diesem zum gewünschten Ergebnis. (Verwenden Sie die Tatsache, dass )∑ich(xich- -x¯)y¯= 0.
Die Verallgemeinerung auf mehrere Variablen erfolgt auf die gleiche Weise: Subtrahieren Sie im ersten Schritt geeignete Vielfache der ersten Spalte von von jeder der anderen Spalten, so dass alle resultierenden Spalten orthogonal zur ersten Spalte sind. (Denken Sie daran, dass es darauf ankommt, eine lineare Gleichung für eine unbekannte Konstante zu lösen was einfach ist.) Wiederholen Sie diesen Vorgang, indem Sie geeignete Vielfache der Sekunde subtrahierenX.c ,Spalte aus den (neuen) dritten, vierten, ... usw. Spalten, um sie gleichzeitig orthogonal zu den ersten beiden Spalten zu machen. Fahren Sie fort, die Spalten auf diese Weise "auszuräumen", bis sie zueinander orthogonal sind. Die resultierenden Normalgleichungen umfassen jeweils höchstens eine Variable und sind daher einfach zu lösen. Schließlich müssen die Lösungen wieder in die ursprünglichen Variablen konvertiert werden (genau wie Sie die Schätzungen und im normalen Regressionsfall wieder in eine Schätzung von konvertieren müssen ). Bei jedem Schritt des Weges erstellen Sie lediglich neue Gleichungen aus alten und lösen jeweils eine einzelne Variable auf.α^β^1β^0
Verweise
Eine formellere Darstellung dieses Ansatzes zur Lösung der Normalgleichungen finden Sie unter Gram-Schmidt-Orthogonalisierung .
Seine Verwendung in der multiplen Regression wird von Lynne Lamotte in The Gram-Schmidt Construction als Grundlage für lineare Modelle , The American Statistician 68 (1), Februar 2014, diskutiert .
Informationen dazu, wie Sie nur eine einzige Koeffizientenschätzung finden, ohne die anderen berechnen zu müssen, finden Sie in der Analyse unter https://stats.stackexchange.com/a/166718/919 .
Eine geometrische Interpretation finden Sie in meinen Antworten unter https://stats.stackexchange.com/a/97881/919 , https://stats.stackexchange.com/a/113207/919 ,