Warum nennen wir die Gleichungen der Schätzung der kleinsten Quadrate in der linearen Regression die * normalen Gleichungen *?

Wenn wir Parameter der linearen Regression schätzen wollen, machen wir normale Gleichungen, so viele wie das lineare Modell die Anzahl der Unbekannten enthält. Warum heißen diese Gleichungen Normalgleichungen?

— Rashid Munir
quelle

Warum dies ablehnen? Es ist besser als jemand, der seine Hausaufgaben oder Testprobleme veröffentlicht.

— Mark L. Stone

Ich werde das vielleicht allgemeinste Verständnis geben, dann einige zusätzliche Details.

Normal ist ein Begriff in der Geometrie (Wikipedia):

In der Geometrie ist eine Normale ein Objekt wie eine Linie oder ein Vektor, die senkrecht zu einem bestimmten Objekt stehen.

was wiederum von einem Begriff für ein Zimmermanns- oder Maurerquadrat zu stammen scheint [1]

NORM und NORMAL. Laut OED könnte Norma im Lateinischen ein Quadrat bedeuten, das von Tischlern, Maurern usw. verwendet wird, um rechte Winkel, einen rechten Winkel oder einen Standard oder ein Muster von Praxis oder Verhalten zu erhalten. Diese Bedeutungen spiegeln sich in den mathematischen Begriffen wider, die auf Norm und Normal basieren.

und aus der Geometrie bewegt sich der Begriff in Vektorräume.

Die direkte Antwort für "normale Gleichungen" finden Sie hier: http://mathworld.wolfram.com/NormalEquation.html

Es wird eine normale Gleichung genannt, weil normal zum Bereich von . $b-Ax$ $A$

(In der üblichen Regressionsnotation ist ' normal zum Bereich von ') $y-Xb$ $X$

Der Rest der kleinsten Quadrate ist buchstäblich senkrecht (im rechten Winkel) zu dem von überspannten Raum . $X$

Der Vektor liegt in Dimensionen. Die X-Matrix umfasst von diesen (oder je nachdem, wie Ihre Notation aufgebaut ist; wenn vollen Rang hat, ist es die Anzahl der Spalten von X). Die Lösung der kleinsten Quadrate ist der nächstgelegene Punkt in dem von aufgespannten Raum zu diesem Vektor (in der Tat buchstäblich die Projektion von auf den von aufgespannten Raum ). Es ist notwendigerweise der Fall, dass durch Minimieren der Summe der Quadrate die Differenz orthogonal zu dem von überspannten Raum ist $y$ $n$ $p$ $p+1$ $X$ $X\hat{\beta}$ $X$ $y$ $y$ $X$ $y-X\hat{\beta}$ $X$ . (Wenn es nicht wäre, gäbe es eine noch kleinere Lösung.)

Wie Whuber in den Kommentaren vorschlägt, ist es jedoch nicht ganz so eindeutig.

Nochmals auf [1] schauen:

Der Begriff NORMALE GLEICHUNG in kleinsten Quadraten wurde 1822 von Gauß eingeführt [James A. Landau]. Kruskal & Stiglers "Normative Terminologie" (in Stigler (1999)) berücksichtigt verschiedene Hypothesen darüber, woher der Begriff stammt, findet sie jedoch nicht sehr zufriedenstellend.

Die Methode der normalen Gleichungen wird jedoch häufig Legendre, 1805, zugeschrieben.

[1] Miller, J. (Hrsg.) "Früheste bekannte Verwendung einiger Wörter der Mathematik, N" in Früheste bekannte Verwendung einiger Wörter der Mathematik

— Glen_b -Reinstate Monica
quelle

Ich habe immer angenommen, dass dies der Grund war, aber es gibt auch andere plausible Gründe. Die Wolfram-Site enthält keine Referenzen für ihre Behauptung. Ist Ihnen eine historische Dokumentation über die Herkunft dieses Begriffs bekannt?

— whuber

Hmm. Da könntest du recht haben. Ich werde einige Änderungen mit zusätzlichen Informationen

— vornehmen