Der unverzerrte Schätzer der Stichproben-Kovarianzmatrix mit n Datenpunkten ist wobei der Durchschnitt über alle Punkte ist. Wir bezeichnen als . Der Faktor ändert den Rang nicht, und jeder Term in der Summe hat (per Definition) Rang , sodass der Kern der Frage wie folgt lautet:C = 1xich∈ Rd ˉ x =Σxi/n(xi- ˉ x )zi1
C = 1n - 1∑i = 1n( xich- x¯) ( xich- x¯)⊤,
x¯= ∑ xich/ n( xich- x¯)zich 11n - 11
Warum hat Rang und nicht Rang , wie es scheint, weil wir Rang- Matrizen summieren ? n - 1 n n 1∑ zichz⊤ichn - 1nn1
Die Antwort ist, dass es passiert, weil nicht unabhängig sind. Nach Konstruktion ist . Wenn Sie also von , ist der letzte verbleibende vollständig bestimmt. Wir summieren nicht unabhängige Rang- Matrizen, sondern nur unabhängige Rang- Matrizen und addieren dann eine weitere Rang- Matrix, die vom Rest vollständig linear bestimmt wird. Diese letzte Addition ändert nichts am Gesamtrang. ≤ z i =0zi∑zi=0z i z n n 1 n - 1 1 1n−1ziznn1n−111
Wir können dies direkt sehen, wenn wir als umschreiben und es jetzt in den obigen Ausdruck :Jetzt gibt es nur noch Terme in der Summe und es wird klar, dass die gesamte Summe höchstens den Rang .Z n = - n - 1 Σ i = 1 Z i , n Σ i = 1 z i z ⊤ i = n - 1 Σ i = 1 z i z ⊤ i + ( - n - 1 Σ i = 1 z i ) z ⊤ n = n -∑zi=0
zn=−∑i=1n−1zi,
n-1n-1∑i=1nziz⊤i=∑i=1n−1ziz⊤i+(−∑i=1n−1zi)z⊤n=∑i=1n−1zi(zi−zn)⊤.
n−1n−1
Dieses Ergebnis weist übrigens darauf hin, warum der Faktor im unverzerrten Kovarianzschätzer und nicht . 11n−11n
Die geometrische Intuition, auf die ich in den obigen Kommentaren angespielt habe, ist, dass man eine 1D-Linie immer an zwei beliebige Punkte in 2D anpassen kann und eine 2D-Ebene immer an drei beliebige Punkte in 3D anpassen kann, dh die Dimensionalität des Unterraums ist immer ; Dies funktioniert nur, weil wir davon ausgehen, dass diese Linie (und Ebene) "verschoben" werden kann, um unsere Punkte anzupassen. Das "Positionieren" dieser Linie (oder Ebene) durch entspricht dem Zentrieren im obigen algebraischen Argument.ˉ xn−1x¯