Ist eine Sample-Kovarianzmatrix immer symmetrisch und eindeutig positiv?


33

Wird dann bei der Berechnung der Kovarianzmatrix einer Stichprobe garantiert eine symmetrische und positiv definierte Matrix erhalten?

Derzeit hat mein Problem eine Stichprobe von 4600 Beobachtungsvektoren und 24 Dimensionen.


Zum Abtasten der Kovarianzmatrix verwende ich die Formel: wobei die Anzahl der Stichproben und der Stichprobenmittelwert ist. nxQn=1ni=1n(xix¯)(xix¯)nx¯
Morten

4
Dies wird normalerweise als "Berechnen der Kovarianzmatrix" oder "Schätzen der Kovarianzmatrix" und nicht als "Abtasten der Kovarianzmatrix" bezeichnet.
Glen_b -Reinstate Monica

1
Eine häufige Situation, in der die Kovarianzmatrix nicht eindeutig ist, besteht darin, dass die 24 "Dimensionen" die Zusammensetzung einer Mischung aufzeichnen, die sich zu 100% summiert.
Whuber

Antworten:


41

Für eine Stichprobe von Vektoren mit ist der Stichprobenmittelwertvektor und die Beispiel-Kovarianzmatrix ist Für einen Vektor ungleich Null haben wir Daher ist immer positiv semidefinit .xi=(xi1,,xik)i=1,,n

x¯=1ni=1nxi,
Q=1ni=1n(xix¯)(xix¯).
yRk
yQy=y(1ni=1n(xix¯)(xix¯))y
=1ni=1ny(xix¯)(xix¯)y
=1ni=1n((xix¯)y)20.()
Q

Die zusätzliche Bedingung für als positiv bestimmt wurde in Whubers Kommentar unten angegeben. Es geht wie folgt.Q

Definiere für . Für jedes ungleich Null ist genau dann Null, wenn , für jedes . Angenommen, die Menge umfasst . Dann gibt es reelle Zahlen so dass . Aber dann haben wir , was ergibt, dass , ein Widerspruch. Wenn also die Spanne von , dann istzi=(xix¯)i=1,,nyRk()ziy=0i=1,,n{z1,,zn}Rkα1,,αny=α1z1++αnznyy=α1z1y++αnzny=0y=0ziRkQr ein n k [ Z 1 ... Z n ] = kist positiv definitiv . Diese Bedingung entspricht .rank[z1zn]=k


2
Ich mag diesen Ansatz, würde aber einige Vorsicht raten: ist nicht unbedingt positiv bestimmt. Die (notwendigen und ausreichenden) Bedingungen dafür sind in meinem Kommentar zu Konstantins Antwort beschrieben. Q
Whuber

1
Da der Rang von kleiner oder gleich , kann die Bedingung vereinfacht werden, dass der Rang gleich k ist. k[z1,z2,,zn]k
Ein Angebot kann den

13

Eine korrekte Kovarianzmatrix ist immer symmetrisch und positiv * semi * definit.

Die Kovarianz zwischen zwei Variablen wird als .σ(x,y)=E[(xE(x))(yE(y))]

Diese Gleichung ändert sich nicht, wenn Sie die Positionen von und . Daher muss die Matrix symmetrisch sein.yxy

Es muss auch positiv * semi- * bestimmt sein, weil:

Sie können eine Transformation Ihrer Variablen immer so finden, dass die Kovarianzmatrix diagonal wird. Auf der Diagonale finden Sie die Varianzen Ihrer transformierten Variablen, die entweder Null oder positiv sind. Es ist leicht zu erkennen, dass die transformierte Matrix dadurch positiv semidefinit wird. Da die Definitionsdefinition jedoch transformationsinvariant ist, folgt daraus, dass die Kovarianzmatrix in jedem gewählten Koordinatensystem positiv semidefinit ist.

Wenn Sie Ihre Kovarianzmatrix (d. H., Wenn Sie Ihre Beispielkovarianz berechnen ) mit der oben angegebenen Formel schätzen , wird dies offensichtlich. immer noch symmetrisch sein. Es muss auch positiv semidefinit sein (glaube ich), da für jedes Sample das PDF , das jedem Samplepunkt die gleiche Wahrscheinlichkeit gibt, die Sample-Kovarianz als seine Kovarianz hat (jemand überprüft dies bitte), so dass alles, was oben angegeben wurde, weiterhin gilt.


1
PS: Ich fange an zu denken, dass dies nicht Ihre Frage war ...
Konstantin Schubert

Wenn Sie jedoch wissen möchten, ob Ihr Abtastalgorithmus dies garantiert, müssen Sie angeben, wie Sie die Abtastung durchführen.
Konstantin Schubert

1
Morten, die Symmetrie ergibt sich unmittelbar aus der Formel. Um die , müssen Sie für jeden Vektor . Aber ist mal eine Summe von (wobei , eine Summe von = ist ist die quadratische Länge des Vektors . Da und eine Summe von Quadraten niemals negativ sein können, ist , QED . Dies zeigt auch, dass genau für diese Vektorenu Q n 1 / n v i v ' i v i = x i - ˉ x ) n u Q n u ' u ( v i v ' i ) u ' ( u v i ) ( u v i ) ' u v i n > 0 uuQnu0uQn1/nvivivi=xix¯)nuQnuu(vivi)u(uvi)(uvi)uvin>0u Q n u ' = 0 u v i u v i = 0 i v i u = 0 Q nuQnu0uQnu=0udie allen orthogonal sind ( dh , für alle ). Wenn die Spanne ist, dann ist und ist definitiv. viuvi=0iviu=0Qn
Whuber

1
@Morten Die Transformationsinvarianz ist ziemlich klar, wenn man eine Matrixmultiplikation geometrisch versteht. Stellen Sie sich Ihren Vektor als Pfeil vor. Die Zahlen, die Ihren Vektor beschreiben, ändern sich mit dem Koordinatensystem, die Richtung und Länge Ihres Vektors jedoch nicht. Eine Multiplikation mit einer Matrix bedeutet nun, dass Sie die Länge und Richtung dieses Pfeils ändern, der Effekt ist jedoch geometrisch in jedem Koordinatensystem gleich. Dasselbe gilt für ein Skalarprodukt: Es ist geometrisch definiert und die Geometrie ist transformationsinvariant. Ihre Gleichung hat also in allen Systemen das gleiche Ergebnis.
Konstantin Schubert

1
@Morten Wenn Sie in Koordinaten denken, lautet das Argument folgendermaßen: Wenn Ihre Transformationsmatrix ist, dann gilt: mit als transformiertem Koordinatenvektor, , also, wenn Sie jedes Element in transformieren Mit der Gleichung erhält man , was gleich , und weil A orthogonal ist, ist die Einheitsmatrix und wir erhalten wieder , was bedeutet, dass die transformierte und die nicht transformierte Gleichung den gleichen Skalar als Ergebnis haben, so dass beide oder beide nicht größer als Null sind. v ' = A v v ' M ' = A M A T V T M v > 0 v ' T M ' v ' = ( A v ) T A M A T A v > 0 V T A T A M A T A v > 0 A T A v T M vAv=AvvM=AMATvTMv>0vTMv=(Av)TAMATAv>0vTATAMATAv>0ATAvTMv>0
Konstantin Schubert

0

Varianz-Kovarianz-Matrizen sind immer symmetrisch, wie aus der tatsächlichen Gleichung hervorgeht, um jeden Term dieser Matrix zu berechnen.

Außerdem sind Varianz-Kovarianz-Matrizen immer quadratische Matrizen der Größe n, wobei n die Anzahl der Variablen in Ihrem Experiment ist.

Eigenvektoren symmetrischer Matrizen sind immer orthogonal.

Mit PCA bestimmen Sie die Eigenwerte der Matrix, um festzustellen, ob Sie die Anzahl der in Ihrem Experiment verwendeten Variablen verringern können.


1
Willkommen, Gen. Beachten Sie, dass Ihr Benutzername, Ihr Identicon und ein Link zu Ihrer Benutzerseite automatisch zu jedem von Ihnen verfassten Beitrag hinzugefügt werden, sodass Sie Ihre Beiträge nicht signieren müssen.
Antoine Vernet

3
Diese Antwort könnte verbessert werden, indem das Problem der positiven Bestimmtheit
Silverfish

Dies beantwortet die Frage nicht wirklich: Es handelt sich nur um eine Sammlung nicht unterstützter Aussagen, die möglicherweise relevant sind oder nicht. Könnten Sie es so umformulieren, dass die Beantwortung der Frage und die Begründung erklärt werden ?
Whuber

0

Ich möchte dem netten Argument von Zen das Folgende hinzufügen, das erklärt, warum wir oft sagen, dass die Kovarianzmatrix positiv bestimmt ist, wenn .n1k

Wenn eine Zufallsstichprobe einer kontinuierlichen Wahrscheinlichkeitsverteilung sind, dann sind (im Sinne der Wahrscheinlichkeitstheorie) fast sicher linear unabhängig. Nun sind nicht linear unabhängig, weil , sondern weil so linear unabhängig ist, als span . Wenn , dann überspannen sie auch .x1,x2,...,xnx1,x2,...,xnz1,z2,...,zni=1nzi=0x1,x2,...,xnR n - 1 n - 1 k R kz1,z2,...,znRn1n1kRk

Um zu schließen, wenn eine Zufallsstichprobe einer kontinuierlichen Wahrscheinlichkeitsverteilung und , ist die Kovarianzmatrix positiv bestimmt. n - 1 kx1,x2,...,xnn1k


0

Für diejenigen mit einem nicht-mathematischen Hintergrund wie ich, die die abstrakten mathematischen Formeln nicht schnell verstehen, ist dies ein ausgearbeitetes Beispiel für die am besten bewertete Antwort. Die Kovarianzmatrix kann auch auf andere Weise abgeleitet werden.

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben


Können Sie erklären, wie diese Tabelle die positive Definitivität der Kovarianzmatrix demonstriert?
whuber

Es tut nicht. Es fiel mir schwer, die Kovarianzmatrix in ihrer Notationsform selbst zu visualisieren. Also habe ich dieses Blatt für mich erstellt und dachte, es könnte jemandem helfen.
Parikshit Bhinde

Bearbeiten Sie es anschließend, um eine Antwort auf die Frage zu erhalten.
Whuber

Fertig :) Danke für den Vorschlag.
Parikshit Bhinde

Die Frage ist: "Wird man dann garantiert eine symmetrische und positiv-definite Matrix bekommen?" Ich kann kein Element Ihres Beitrags erkennen, das dies anspricht, weil (1) es niemals eine Kovarianzmatrix identifiziert; (2) es zeigt keine positive Bestimmtheit von irgendetwas.
Whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.