Nachdem das Problem durch Routineverfahren vereinfacht wurde, kann es gelöst werden, indem es in ein duales Minimierungsprogramm umgewandelt wird, das eine bekannte Antwort mit einem elementaren Beweis hat. Vielleicht ist diese Dualisierung der "subtile Schritt", auf den sich die Frage bezieht. Die Ungleichung kann auch rein mechanisch durch Maximierung von festgestellt werden über Lagrange-Multiplikatoren.|Ti|
Zunächst biete ich jedoch eine elegantere Lösung an, die auf der Geometrie der kleinsten Quadrate basiert. Es erfordert keine vorläufige Vereinfachung und ist fast unmittelbar und liefert eine direkte Intuition in das Ergebnis. Wie in der Frage vorgeschlagen, reduziert sich das Problem auf die Cauchy-Schwarz-Ungleichung.
Geometrische Lösung
Betrachten Sie als einen dimensionalen Vektor im euklidischen Raum mit dem üblichen Punktprodukt. Sei der Basisvektor und . Schreiben Sie und für die orthogonalen Projektionen von und in das orthogonale Komplement von . (In der statistischen Terminologie sind sie die Residuen in Bezug auf die .) Dann, da undn y = ( 0 , 0 , ... , 0 , 1 , 0 , ... , 0 ) i th 1 = ( 1 , 1 , ... , 1 ) x y x y 1 X i - ˉ X =x=(X1,X2,…,Xn)ny=(0,0,…,0,1,0,…,0)ith1=(1,1,…,1)x^y^xy1S=| | x | | /√Xi−X¯=x^⋅yS=||x^||/n−1−−−−−√ ,
|Ti|=n−1−−−−−√|x^⋅y|||x^||=n−1−−−−−√|x^⋅y^|||x^||
ist die Komponente von in der Richtung . Durch Cauchy-Schwarz wird es genau maximiert, wenn parallel zu , für die QED. x x y =(-1,-1,...,-1,n-1,-1,-1,...,-1)/nTi=±√y^x^x^y^=(−1,−1,…,−1,n−1,−1,−1,…,−1)/n
Ti=±n−1−−−−−√y^⋅y^||y^||=±n−1−−−−−√||y^||=±n−1n−−√,
Im Übrigen bietet diese Lösung eine umfassende Charakterisierung aller Fälle, in denenwird maximiert: Sie sind alle von der Form|Ti|
x=σy^+μ1=σ(−1,−1,…,−1,n−1,−1,−1,…,−1)+μ(1,1,…,1)
für alle echten .μ,σ
Diese Analyse lässt sich leicht auf den Fall verallgemeinern, in dem durch eine beliebige Gruppe von Regressoren ersetzt wird. Offensichtlich ist das Maximum von proportional zur Länge des Residuums von ,.T i y | | y | |{1}Tiy||y^||
Vereinfachung
Da bei Änderungen von Ort und Maßstab unveränderlich ist, können wir ohne Verlust der Allgemeinheit annehmen, dass die Summe zu Null und ihre Quadrate zu summieren . Dies identifiziertmit, da (das mittlere Quadrat) . Das Maximieren ist gleichbedeutend mit dem Maximieren von . Auch durch geht keine Allgemeinheit verloren , da die austauschbar sind.X i n - 1 | T i | | X i | S 1 | T i | 2 = T 2 i = X 2 i i = 1 X iTiXin−1|Ti||Xi|S1|Ti|2=T2i=X2ii=1Xi
Lösung über eine Doppelformulierung
Ein doppeltes Problem besteht darin, den Wert von und zu fragen, welche Werte der verbleibenden benötigt werden, um die Summe der Quadrate zu minimieren, , dass . Da angegeben ist, ist dies das Problem der Minimierung von , , .X21Xj,j≠1∑nj=1X2j∑nj=1Xj=0X1∑nj=2X2j∑nj=2Xj=−X1
Die Lösung ist in vielerlei Hinsicht leicht zu finden. Eines der elementarsten ist das Schreiben
Xj=−X1n−1+εj, j=2,3,…,n
für welche . Durch Erweitern der Zielfunktion und Verwenden dieser Summe-zu-Null-Identität zur Vereinfachung wird diese erzeugt∑nj=2εj=0
∑j=2nX2j=∑j=2n(−X1n−1+εj)2=∑(−X1n−1)2−2X1n−1∑εj+∑ε2j=Constant+∑ε2j,
Das sofortige Anzeigen der eindeutigen Lösung ist für alle . Für diese Lösungεj=0j
(n−1)S2=X21+(n−1)(−X1n−1)2=(1+1n−1)X21=nn−1X21
und
|Ti|=|X1|S=|X1|n(n−1)2X21−−−−−−−√=n−1n−−√,
QED .
Lösung über Maschinen
Kehren Sie zu dem vereinfachten Programm zurück, mit dem wir begonnen haben:
Maximize X21
vorbehaltlich
∑i=1nXi=0 and ∑i=1nX2i−(n−1)=0.
Die Methode der Lagrange-Multiplikatoren (die fast rein mechanisch und unkompliziert ist) setzt eine nichttriviale lineare Kombination der Gradienten dieser drei Funktionen mit Null gleich:
(0,0,…,0)=λ1D(X21)+λ2D(∑i=1nXi)+λ3D(∑i=1nX2i−(n−1)).
Komponente für Komponente sind diese Gleichungenn
0000=2λ1X1+==⋯=λ2λ2λ2+2λ3X1+2λ3X2+2λ3Xn.
Die letzten von ihnen implizieren entweder oder . (Wir können den letzteren Fall ausschließen, weil dann die erste Gleichung impliziert , wodurch die lineare Kombination trivialisiert wird.) Die Summe-zu-Null-Beschränkung erzeugt . Die Beschränkung der Quadratsumme liefert die beiden Lösungenn−1X2=X3=⋯=Xn=−λ2/(2λ3)λ2=λ3=0λ1=0X1=−(n−1)X2
X1=±n−1n−−√; X2=X3=⋯=Xn=∓1n−−√.
Sie geben beide nach
|Ti|=|X1|≤|±n−1n−−√|=n−1n−−√.