Man ist versucht, glib zu sein und darauf hinzuweisen, weil die quadratische Form
β→(Y−Xβ)′(Y−Xβ)
Ist positiv semi-definit, gibt es ein für das es minimal ist, und dieses Minimum wird (durch Setzen des Gradienten in Bezug auf auf Null) mit den normalen Gleichungen gefundenββ
X′X(Y−Xβ)=0,
woher muss es mindestens eine Lösung geben, unabhängig vom Rang vonX′X . Dieses Argument scheint jedoch nicht im Sinne der Frage zu sein, die eine rein algebraische Aussage zu sein scheint. Vielleicht ist es von Interesse zu verstehen, warum und unter welchen Bedingungen eine solche Gleichung eine Lösung haben muss. Beginnen wir also von vorne und tun so, als ob wir den Zusammenhang mit den kleinsten Quadraten nicht kennen.
Es kommt alles auf die Bedeutung von unten , die transponierte . Dies wird sich als eine Frage einer einfachen Definition, einer angemessenen Notation und des Konzepts einer nicht entarteten sesquilinearen Form herausstellen . Denken Sie daran, dass die "Entwurfsmatrix" aus Zeilen (eine für jede Beobachtung) und Spalten (eine für jede Variable, einschließlich einer Konstanten, falls vorhanden) ist. Es stellt daher eine lineare Transformation vom Vektorraum nach .X′XXnpV=RpW=Rn
Die Transponierung von , die als lineare Transformation betrachtet wird , ist eine lineare Transformation der dualen Räume . Um eine Komposition wie , muss mit identifiziert werden . Das ist es, was das übliche innere Produkt (Summe der Quadrate) auf tut.X X′:W∗→V∗X′XW∗WW
Es gibt tatsächlich zwei innere Produkte und die auf bzw. sind. Dies sind bilineare symmetrische Funktionen mit reellen Werten, die nicht entartet sind . Letzteres bedeutet dasgVgWVW
gW(u,v)=0 ∀u∈W⟹v=0,
mit analogen Aussagen für . Mit diesen inneren Produkten können wir geometrisch Länge und Winkel messen. Die Bedingung betrachtet werden kann als "senkrecht" zu sein . Nichtentartung bedeutet, dass nur der Nullvektor senkrecht zum gesamten Vektorraum steht. (Diese Allgemeinheit bedeutet, dass die hier erhaltenen Ergebnisse für die Einstellung der verallgemeinerten kleinsten Quadrate gelten , für die nicht unbedingt das übliche innere Produkt ist, das als Summe der Produkte von Komponenten angegeben wird, sondern eine willkürliche nicht entartete Form ist. Wir könnten insgesamt auf verzichten Definieren vongVg(u,v)=0uvgWgVX′:W→V∗, aber ich erwarte, dass viele Leser mit doppelten Leerzeichen nicht vertraut oder unangenehm sind, und entscheide mich daher, diese Formulierung zu vermeiden.)
Mit diesen inneren Produkten in der Hand wird die Transponierung einer linearen Transformation durch via definiertX:V→WX′:W→V
gV(X′(w),v)=gW(w,X(v))
für alle und . Dass es tatsächlich einen Vektor mit dieser Eigenschaft gibt, kann festgestellt werden, indem Dinge mit Basen für und ; Dass dieser Vektor einzigartig ist, ergibt sich aus der Nichtentartung der inneren Produkte. Denn wenn und zwei Vektoren sind, für die für alle , dann (aus der Linearität in der ersten Komponente) für alle was bedeutet, dass .w∈Wv∈VX′(w)∈VVWv1v2gV(v1,v)=gV(v2,v)v∈VgV(v1−v2,v)=0vv1−v2=0
Wenn Schreib für den Satz von allen Vektoren , die senkrecht zu jedem Vektor in . Schreiben Sie auch als Notation für das Bild von , das als die Menge . Eine grundlegende Beziehung zwischen und seiner Transponierten istU⊂W,U⊥UX(V)X{X(v)|v∈V}⊂WXX′
X′(w)=0⟺w∈X(V)⊥.
Das heißt, befindet sich genau dann im Kern von wenn senkrecht zum Bild von . wX′wX Diese Behauptung sagt zwei Dinge aus:
Wenn , dann ist für alle , die lediglich bedeutet, dass senkrecht zu .X′(w)=0gW(w,X(v))=gV(X′(w),v)=gV(0,v)=0v∈VwX(V)
Wenn senkrecht zu ist, bedeutet nur für alle , aber dies ist äquivalent zu und Nichtentartung von impliziert .wX(V)gW(w,X(v))=0v∈VgV(X′(w),v)=0gVX′(w)=0
Wir sind jetzt tatsächlich fertig. Die Analyse hat gezeigt, dass als direktes Produkt zerfällt . Das heißt, wir können jedes beliebige und es eindeutig als mit und schreiben. . Daß Mittel von der Form für mindestens einen . Beachten Sie also, dassWW=X(V)⊕X(V)⊥ y∈Wy=y0+y⊥y0∈X(V)y⊥∈X(V)⊥y0X(β)β∈V
y−Xβ=(y0+y⊥)−y0=y⊥∈X(V)⊥
Die grundlegende Beziehung besagt, dass dies dasselbe ist wie die linke Seite im Kernel von :X′
X′(y−Xβ)=0,
woher löst die normalen GleichungenβX′Xβ=X′y.
Wir sind jetzt in der Lage, eine kurze geometrische Antwort auf die Frage zu geben (zusammen mit einigen aufschlussreichen Kommentaren): Die normalen Gleichungen haben eine Lösung, weil jeder Vektor (eindeutig) als Summe eines Vektors zerfällt im Bereich von und einem anderen Vektor senkrecht zu und ist das Bild von mindestens einer -vector . Die Dimension des Bildes (sein Rang ) ist die Dimension der identifizierbaren Parameter. Die Dimension des Kernels vonny∈Wy0Xy⊥y0y0pβ∈VX(V)Xzählt die nichttrivialen linearen Beziehungen zwischen den Parametern. Alle Parameter sind identifizierbar, wenn eine Eins-zu-Eins-Zuordnung von zu seinem Bild in .XVW
Es ist letztendlich nützlich, auf den Raum insgesamt zu verzichten und vollständig mit dem Unterraum , dem "Spaltenraum" der Matrix . Die Normalgleichungen Menge an orthogonaler Projektion auf . Dies befreit uns konzeptionell von der Bindung an eine bestimmte Parametrisierung des Modells und zeigt, dass Modelle der kleinsten Quadrate eine intrinsische Dimension haben, unabhängig davon, wie sie gerade parametrisiert werden.VU=X(V)⊂WXU
Ein interessantes Ergebnis dieser abstrakten algebraischen Demonstration ist, dass wir die normalen Gleichungen in beliebigen Vektorräumen lösen können. Das Ergebnis gilt beispielsweise für komplexe Räume, für Räume über endlichen Feldern (wo das Minimieren einer Quadratsumme wenig Sinn macht) und sogar über unendlich dimensionale Räume, die geeignete sequilineare Formen unterstützen.