Warum ist eine Stichproben-Kovarianzmatrix singulär, wenn die Stichprobengröße kleiner als die Anzahl der Variablen ist?

30

Angenommen, ich habe eine $p$ dimensionale multivariate Gauß-Verteilung. Und ich nehme $n$ Beobachtungen (jeder von ihnen ein $p$ -vector) aus dieser Verteilung berechnen , und die Probe Kovarianzmatrix $S$ . In dieser Arbeit geben die Autoren an, dass die mit berechnete Kovarianzmatrix der Stichprobe $p > n$ singulär ist.

Wie ist es wahr oder abgeleitet?
Irgendwelche Erklärungen?

covariance-matrix linear-algebra

— user34790
quelle

4

Beachten Sie, dass dies unabhängig von der zugrunde liegenden Verteilung zutrifft: Es muss nicht Gauß sein.

— Amöbe sagt Reinstate Monica

22

Einige Fakten zu Matrix-Rängen, die ohne Beweis angeboten werden (aber Beweise für alle oder fast alle von ihnen sollten entweder in standardmäßigen linearen Algebra-Texten angegeben werden oder in einigen Fällen als Übung festgelegt werden, nachdem genügend Informationen angegeben wurden, um dies zu tun):

Ob und zwei anpassbare Matrizen sind, dann: $A$ $B$

(i) Spaltenrang von = Reihenrang von $A$ $A$

(ii) $\text{rank}(A) = \text{rank}(A^T) = \text{rank}(A^TA) = \text{rank}(AA^T)$

(iii) $\text{rank}(AB)\leq \min(\text{rank}(A),\text{rank}(B))$

(iv) $\text{rank}(A+B) \leq \text{rank}(A) + \text{rank}(B)$

(v) wenn eine quadratische Matrix mit vollem Rang ist, dann $B$ $\text{rank}(AB) = \text{rank}(A)$

Betrachten Sie die Matrix der Probendaten, . Aus dem ergibt sich , dass der Rang von höchstens beträgt . $n\times p$ $y$ $y$ $\min(n,p)$

Ferner wird aus dem oben Gesagten klar hervorgehen, dass der Rang von nicht größer als der Rang von (unter Berücksichtigung der Berechnung von in Matrixform, möglicherweise mit einer gewissen Vereinfachung). $S$ $y$ $S$

Wenn dann in welchem Fall . $n<p$ $\text{rank}(y)<p$ $\text{rank}(S)<p$

— Glen_b - Setzen Sie Monica wieder ein
quelle

gute Antwort! Es ist jedoch nicht vollständig klar, in welcher Beziehung y und S zu A und B stehen.

— Matifou

S wird aus y berechnet; ("x" im ursprünglichen Beitrag). Sie können die Fakten über y und die daran vorgenommenen Manipulationen (über die obigen Regeln) verwenden, um den Rang S festzulegen. Die von A und B gespielten Rollen ändern sich von Schritt zu Schritt.

— Glen_b

14

Die kurze Antwort auf Ihre Frage lautet: Rang . Wenn also , dann ist singulär. $(S) \le n - 1$ $p > n$ $S$

Denken Sie daran, um eine detailliertere Antwort zu erhalten die (unverzerrte) Stichproben-Kovarianzmatrix wie folgt geschrieben werden kann

S = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (x_{i} - \bar{x})^{T} .

$S = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})(x_i - \bar{x})^T.$

Tatsächlich summieren wir Matrizen, von denen jede einen Rang von 1 hat. Unter der Annahme, dass die Beobachtungen linear unabhängig sind, trägt jede Beobachtung in gewissem Sinne 1 zum Rang , und eine 1 wird vom Rang subtrahiert (wenn ), weil wir jede Beobachtung um . Wenn jedoch Multikollinearität in den Beobachtungen vorhanden ist, kann Rang reduziert werden, was erklärt, warum der Rang möglicherweise unter . $n$ $x_i$ $(S)$ $p > n$ $\bar{x}$ $(S)$ $n - 1$

Es wurde viel Arbeit in die Untersuchung dieses Problems gesteckt. Zum Beispiel haben ein Kollege von mir und ich eine Arbeit zu diesem Thema geschrieben, in der wir uns überlegen wollten, wie wir vorgehen sollen, wenn singulär ist, wenn es auf die lineare Diskriminanzanalyse in der Einstellung angewendet wird . $S$ $p \gg n$

— Ramhiser
quelle

4

Könnten Sie bitte erläutern, warum Sie 1 subtrahieren, weil wir jede Beobachtung um $\bar x$ ?

— Avocado

@loganecolss: Siehe Warum ist der Rang der Kovarianzmatrix höchstens

?

n - 1

$n−1$ für eine Antwort auf Ihre Frage.

— Amöbe sagt Reinstate Monica

Gute Antwort! Könnte man vielleicht einfach eine Erklärung / einen Link für die Tatsache hinzufügen, dass wir the Matrizen summieren, von denen jede einen Rang von 1 hat ? Vielen Dank!

— Matifou

10

Wenn Sie die Situation richtig betrachten, ist die Schlussfolgerung intuitiv offensichtlich und unmittelbar.

Dieser Beitrag bietet zwei Demonstrationen. Das erste, unmittelbar darunter, ist in Worten. Es entspricht einer einfachen Zeichnung, die ganz am Ende erscheint. Dazwischen steht eine Erklärung, was die Wörter und die Zeichnung bedeuten.

Die Kovarianzmatrix für -variate Beobachtungen ist eine Matrix durch links Multiplizieren einer Matrix berechnet (die rezentriert Daten) durch ihre Transponierte . Dieses Matrizenprodukt sendet Vektoren durch eine Pipeline von Vektorräumen, in denen die Dimensionen und . Folglich ist die Kovarianzmatrix, qua lineare Transformation, sendet in einen Unterraum , dessen Dimension höchstens . $n$ $p$ $p\times p$ $\mathbb{X}_{np}$ $\mathbb{X}_{pn}^\prime$ $p$ $n$ $\mathbb{R}^n$ $\min(p,n)$ Es ist unmittelbar, dass der Rang der Kovarianzmatrix nicht größer als . $\min(p,n)$ Wenn also dann ist der Rang höchstens , was - streng genommen kleiner als bedeutet, dass die Kovarianzmatrix singulär ist. $p\gt n$ $n$ $p$

All diese Begriffe werden im Rest dieses Beitrags ausführlich erläutert.

(Wie Amoeba in einem jetzt gestrichenen Kommentar freundlich hervorhob und in einer Antwort auf eine verwandte Frage zeigt , liegt das Bild von tatsächlich in einem Codimension-1-Unterraum von (bestehend aus Vektoren, deren Komponenten sich zu Null summieren), weil es Alle Spalten wurden bei Null neu zentriert, daher der Rang der Stichproben-Kovarianzmatrix $\mathbb X$ $\mathbb{R}^n$ $\frac{1}{n-1}\mathbb{X}^\prime \mathbb{X}$ cannot exceed $n-1$ .)

Linear algebra is all about tracking dimensions of vector spaces. You only need to appreciate a few fundamental concepts to have a deep intuition for assertions about rank and singularity:

Matrix multiplication represents linear transformations of vectors. An $m\times n$ matrix $\mathbb{M}$ represents a linear transformation from an $n$ -dimensional space $V^n$ to an $m$ -dimensional space $V^m$ . Specifically, it sends any $x\in V^n$ to $\mathbb{M}x = y \in V^m$ . That this is a linear transformation follows immediately from the definition of linear transformation and basic arithmetical properties of matrix multiplication.
Linear transformations can never increase dimensions. This means that the image of the entire vector space $V^n$ under the transformation $\mathbb M$ (which is a sub-vector space of $V^m$ ) can have a dimension no greater than $n$ . This is an (easy) theorem that follows from the definition of dimension.
The dimension of any sub-vector space cannot exceed that of the space in which it lies. This is a theorem, but again it is obvious and easy to prove.
The rank of a linear transformation is the dimension of its image. The rank of a matrix is the rank of the linear transformation it represents. These are definitions.
A singular matrix $\mathbb{M}_{mn}$ has rank strictly less than $n$ (the dimension of its domain). In other words, its image has a smaller dimension. This is a definition.

To develop intuition, it helps to see the dimensions. I will therefore write the dimensions of all vectors and matrices immediately after them, as in $\mathbb{M}_{mn}$ and $x_n$ . Thus the generic formula

y_{m} = M_{m n} x_{n}

$y_m = \mathbb{M}_{mn} x_n$

is intended to mean that the $m\times n$ matrix $\mathbb M$ , when applied to the $n$ -vector $x$ , produces an $m$ -vector $y$ .

Products of matrices can be thought of as a "pipeline" of linear transformations. Generically, suppose $y_a$ is an $a$ -dimensional vector resulting from the successive applications of the linear transformations $\mathbb{M}_{mn}, \mathbb{L}_{lm}, \ldots, \mathbb{B}_{bc},$ and $\mathbb{A}_{ab}$ to the $n$ -vector $x_n$ coming from the space $V^n$ . This takes the vector $x_n$ successively through a set of vector spaces of dimensions $m, l, \ldots, c, b,$ and finally $a$ .

Look for the bottleneck: because dimensions cannot increase (point 2) and subspaces cannot have dimensions larger than the spaces in which they lie (point 3), it follows that the dimension of the image of $V^n$ cannot exceed the smallest dimension $\min(a,b,c,\ldots,l,m,n)$ encountered in the pipeline.

This diagram of the pipeline, then, fully proves the result when it is applied to the product $\mathbb{X}^\prime \mathbb{X}$ :

— whuber
quelle