Geeignete Maßnahme, um die kleinste Kovarianzmatrix zu finden

In dem Lehrbuch, das ich lese, verwenden sie positive Bestimmtheit (halbpositive Bestimmtheit), um zwei Kovarianzmatrizen zu vergleichen. Die Idee ist, dass wenn pd ist, kleiner als . Aber ich kämpfe darum, die Intuition dieser Beziehung zu bekommen? $A-B$ $B$ $A$

Hier gibt es einen ähnlichen Thread:

/math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices

Was ist die Intuition für die Verwendung von Bestimmtheit zum Vergleichen von Matrizen?

Obwohl die Antworten nett sind, sprechen sie die Intuition nicht wirklich an.

Hier ist ein verwirrendes Beispiel:

[\begin{matrix} 16 & 12 \\ 12 & 9 \end{matrix}] - [\begin{matrix} 1 & 2 \\ 2 & 4 \end{matrix}]

$\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation}$

hier ist die Determinante der Differenz -25, also ist die Beziehung nicht pd oder sogar psd und die erste Matrix ist also nicht größer als die erste?

Ich möchte einfach zwei 3 * 3-Kovarianzmatrizen vergleichen, um zu sehen, welche am kleinsten ist. Es erscheint mir intuitiver, so etwas wie die euklidische Norm zu verwenden, um sie zu vergleichen? Dies würde jedoch bedeuten, dass die erste Matrix oben größer als die zweite Matix ist. Außerdem sehe ich immer nur das pd / psd-Kriterium, das zum Vergleichen von Kovarianzmatrizen verwendet wird.

Kann jemand erklären, warum pd / psd besser ist als ein anderes Maß wie die euklidische Norm?

Ich habe diese Frage auch im Mathe-Forum gepostet (war mir nicht sicher, was am besten war) und hoffe, dass dies nicht gegen Regeln verstößt.

/math/628135/comparing-two-covariance-matrices

— Baz
quelle

Vielleicht möchten Sie dies lesen, wenn die Intuition hinter der positiven (Halb-) Bestimmtheit berücksichtigt wird. Wenn Sie 2 Varianzen vergleichen aund bwenn dies a-bpositiv ist, würden wir sagen, dass beim Entfernen der Variabilität beine a"echte" Variabilität übrig bleibt a. Ebenso ist ein Fall von multivariaten Varianzen (= Kovarianzmatrizen) Aund B. Wenn A-Bpositiv definitiv ist, bedeutet dies, dass die A-BKonfiguration von Vektoren im euklidischen Raum "real" ist: Mit anderen Worten, beim Entfernen Baus Aist letzterer immer noch eine brauchbare Variabilität.

— ttnphns

Was meinst du mit der "kleinsten" von zwei Kovarianzmatrizen?

— whuber

Hallo Whuber, die Kovarianzmatrizen beziehen sich auf konkurrierende Schätzer. Ich möchte den Schätzer auswählen, der die kleinste Varianz aufweist. (Klärt dies die Dinge?)

— Baz

Baz: Warum dann nicht die Varianzen der Schätzer direkt vergleichen?

— Glen_b -State Monica

Hallo, da die Methode festgelegt ist, wird der Ausdruck für die sogenannte Varianz (einschließlich Kovarianzen) angegeben. Aber selbst wenn ich nur Varianzen vergleichen würde, würde dies immer noch den Vergleich von Vektorwerten beinhalten, die ähnliche Probleme haben wie der Vergleich von Matrixwerten?

— Baz

Antworten:

Die Reihenfolge der Matrizen, auf die Sie sich beziehen, wird als Loewner-Reihenfolge bezeichnet und ist eine Teilreihenfolge, die häufig bei der Untersuchung positiver bestimmter Matrizen verwendet wird. Eine buchlange Behandlung der Geometrie auf der Mannigfaltigkeit von positiv-definitiven (posdef) Matrizen ist hier .

Ich werde zuerst versuchen, Ihre Frage nach Intuitionen zu beantworten . Eine (symmetrische) Matrix ist posdef, wenn für alle . Wenn eine Zufallsvariable (rv) mit der Kovarianzmatrix , dann ist (proportional zu) seiner Projektion auf einen eindimensionalen Unterraum und . Wenden Sie dies auf in Ihrem Q an, erstens: Es ist eine Kovarianzmatrix, zweitens: Eine Zufallsvariable mit Kovarianzmatrix projiziert in alle Richtungen mit geringerer Varianz als ein RV mit Kovarianzmatrix $A$ $c^T A c\ge 0$ $c \in \mathbb{R}^n$ $X$ $A$ $c^T X$ $\mathbb{Var}(c^T X) = c^T A c$ $A-B$ $B$ $A$ . Dies macht intuitiv klar, dass diese Reihenfolge nur eine teilweise sein kann. Es gibt viele Wohnmobile, die mit sehr unterschiedlichen Abweichungen in verschiedene Richtungen projizieren. Ihr Vorschlag für eine euklidische Norm hat keine so natürliche statistische Interpretation.

Ihr "verwirrendes Beispiel" ist verwirrend, weil beide Matrizen die Determinante Null haben. Für jede gibt es also eine Richtung (den Eigenvektor mit dem Eigenwert Null), in der sie immer auf Null projiziert . Diese Richtung ist jedoch für die beiden Matrizen unterschiedlich, daher können sie nicht verglichen werden.

Die Loewner-Ordnung ist so definiert, dass , positiver definit als , wenn posdef ist. Dies ist eine Teilreihenfolge, für einige posdef-Matrizen sind weder noch posdef. Ein Beispiel ist: Eine Möglichkeit von Wenn Sie dies grafisch darstellen, zeichnen Sie ein Diagramm mit zwei Ellipsen, die jedoch am Ursprung zentriert sind und den Matrizen auf standardmäßige Weise zugeordnet sind (dann ist der radiale Abstand in jeder Richtung proportional zur Varianz der Projektion in diese Richtung): $A \preceq B$ $B$ $A$ $B-A$ $B-A$ $A-B$

A = (\begin{matrix} 1 & 0.5 \\ 0.5 & 1 \end{matrix}), B = (\begin{matrix} 0.5 & 0 \\ 0 & 1.5 \end{matrix})

$A=\begin{pmatrix} 1 & 0.5 \\ 0.5 & 1 \end{pmatrix}, \quad B= \begin{pmatrix} 0.5 & 0\\ 0 & 1.5 \end{pmatrix}$

In diesem Fall sind die beiden Ellipsen kongruent, aber unterschiedlich gedreht (tatsächlich beträgt der Winkel 45 Grad). Dies entspricht der Tatsache, dass die Matrizen und die gleichen Eigenwerte haben, die Eigenvektoren jedoch gedreht werden. $A$ $B$

Da diese Antwort stark von den Eigenschaften der Ellipsen abhängt, ist die folgende Intuition hinter bedingten Gaußschen Verteilungen? Das geometrische Erklären von Ellipsen kann hilfreich sein.

Jetzt werde ich erklären, wie die den Matrizen zugeordneten Ellipsen definiert sind. Eine Posdef-Matrix definiert eine quadratische Form . Dies kann als Funktion dargestellt werden, der Graph ist quadratisch. Wenn ist, liegt der Graph von immer über dem Graph von . Wenn wir die Diagramme mit einer horizontalen Ebene in Höhe 1 schneiden, beschreiben die Schnitte Ellipsen (das ist in der Tat eine Möglichkeit, Ellipsen zu definieren). Diese Schnittellipsen sind gegeben durch die Gleichungen und wir sehen, dass $A$ $Q_A(c) = c^T A c$ $A \preceq B$ $Q_B$ $Q_A$

Q_{A} (c) = 1, Q_{B} (c) = 1

$Q_A(c)=1, \quad Q_B(c)=1$

A ⪯ B

$A \preceq B$ entspricht der Ellipse von B (jetzt mit Innenraum) ist in der Ellipse von A enthalten. Wenn es keine Ordnung gibt, gibt es keine Eindämmung. Wir beobachten, dass die Einschlussreihenfolge der Loewner-Teilreihenfolge entgegengesetzt ist, wenn wir nicht mögen, dass wir Ellipsen der Inversen zeichnen können. Dies , weil ist äquivalent zu . Aber ich werde bei den hier definierten Ellipsen bleiben.

A ⪯ B

$A \preceq B$

B^{- 1} ⪯ A^{- 1}

$B^{-1} \preceq A^{-1}$

Eine Ellipse kann mit den Halbachsen und ihrer Länge beschrieben werden. Wir werden hier nur Matrizen diskutieren , da sie diejenigen sind, die wir zeichnen können ... Also brauchen wir die zwei Hauptachsen und ihre Länge. Dies kann gefunden werden, wie hier mit einer Eigenzusammensetzung der posdef-Matrix erläutert. Dann sind die Hauptachsen durch die Eigenvektoren gegeben, und ihre Länge kann aus den Eigenwerten durch Wir sehen auch , daß die Fläche der Ellipse darstellt ist . $2\times 2$ $a,b$ $\lambda_1, \lambda_2$

a = \sqrt{1 / λ_{1}}, b = \sqrt{1 / λ_{2}} .

$a = \sqrt{1/\lambda_1}, \quad b=\sqrt{1/\lambda_2}.$

A

$A$

π a b = π \sqrt{1 / λ_{1}} \sqrt{1 / λ_{2}} = \frac{π}{\sqrt{det A}}

$\pi a b= \pi \sqrt{1/\lambda_1}\sqrt{1/\lambda_2} = \frac{\pi}{\sqrt{\det A}}$

Ich werde ein letztes Beispiel geben, in dem die Matrizen bestellt werden können:

Die zwei Matrizen in diesem Fall waren:

A = (\begin{matrix} 2 / 3 & 1 / 5 \\ 1 / 5 & 3 / 4 \end{matrix}), B = (\begin{matrix} 1 & 1 / 7 \\ 1 / 7 & 1 \end{matrix})

$A =\begin{pmatrix}2/3 & 1/5 \\ 1/5 & 3/4\end{pmatrix}, \quad B=\begin{pmatrix} 1& 1/7 \\ 1/7& 1 \end{pmatrix}$

— kjetil b halvorsen
quelle

@kjetil b halvorsen gibt eine schöne Diskussion über die geometrische Intuition hinter positiver Halbbestimmtheit als Teilordnung. Ich werde die gleiche Intuition mit schmutzigeren Händen betrachten. Eine, die davon ausgeht, welche Art von Berechnungen Sie mit Ihren Varianzmatrizen durchführen möchten.

Angenommen, Sie haben zwei Zufallsvariablen und . Wenn sie Skalare sind, können wir ihre Varianzen als Skalare berechnen und sie auf offensichtliche Weise unter Verwendung der skalaren reellen Zahlen und . Wenn also und , sagen wir, dass die Zufallsvariable eine kleinere Varianz hat als . $x$ $y$ $V(x)$ $V(y)$ $V(x)=5$ $V(y)=15$ $x$ $y$

Wenn andererseits und vektorwertige Zufallsvariablen sind (sagen wir, sie sind zwei Vektoren), ist es nicht so offensichtlich, wie wir ihre Varianzen vergleichen. Angenommen, ihre Abweichungen sind: Wie vergleichen wir die Varianzen dieser beiden Zufallsvektoren? Eine Sache, die wir tun könnten, ist nur die Varianzen ihrer jeweiligen Elemente zu vergleichen. Wir können also sagen, dass die Varianz von kleiner ist als die Varianz von indem wir nur reelle Zahlen vergleichen, wie: und $x$ $y$

\begin{aligned} V (x) = [\begin{array}{cc} 1 & 0.5 \\ 0.5 & 1 \end{array}] V (y) = [\begin{array}{cc} 8 & 3 \\ 3 & 6 \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} 1 & 0.5 \\ 0.5 & 1 \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} 8 & 3 \\ 3 & 6 \end{array} \right] \end{align}$

x_{1}

$x_1$

y_{1}

$y_1$

V (x_{1}) = 1 < 8 = V (y_{1})

$V(x_1)=1<8=V(y_1)$

V (x_{2}) = 1 < 6 = V (y_{2})

$V(x_2)=1<6=V(y_2)$ . Also, vielleicht könnten wir sagen , dass die Varianz von ist die Varianz von , wenn die Varianz jedes Element von ist der Varianz des entsprechenden Elements von . Dies wäre wie wenn man sagt , wenn jedes der Diagonalelemente von ist das entsprechende Diagonalelement von .

x

$x$

\leq

$\le$

y

$y$

x

$x$

\leq

$\le$

y

$y$

V (x) \leq V (y)

$V(x) \le V(y)$

V (x)

$V(x)$

\leq

$\le$

V (y)

$V(y)$

Diese Definition erscheint auf den ersten Blick vernünftig. Solange die Varianzmatrizen, die wir betrachten, diagonal sind (dh alle Kovarianzen sind 0), entspricht dies der Verwendung der Halbbestimmtheit. Das heißt, wenn die Varianzen wie folgt aussehen: und sage dann ist positiv-semidefinit (dh ) ist genau das gleiche wie und . Alles scheint gut zu sein, bis wir Kovarianzen einführen. Betrachten Sie dieses Beispiel:

\begin{aligned} V (x) = [\begin{array}{cc} V (x_{1}) & 0 \\ 0 & V (x_{2}) \end{array}] V (y) = [\begin{array}{cc} V (y_{1}) & 0 \\ 0 & V (y_{2}) \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} V(x_1) & 0 \\ 0 & V(x_2) \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} V(y_1) & 0 \\ 0 & V(y_2) \end{array} \right] \end{align}$

V (y) - V (x)

$V(y)-V(x)$

V (x) \leq V (y)

$V(x) \le V(y)$

V (x_{1}) \leq V (y_{1})

$V(x_1) \le V(y_1)$

V (x_{2}) \leq V (y_{2})

$V(x_2) \le V(y_2)$

\begin{aligned} V (x) = [\begin{array}{cc} 1 & 0.1 \\ 0.1 & 1 \end{array}] V (y) = [\begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} 1 & 0.1 \\ 0.1 & 1 \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} 1 & 0 \\ 0 & 1 \end{array} \right] \end{align}$ Wenn wir nun einen Vergleich verwenden, der nur die Diagonalen berücksichtigt, würden wir sagen. und tatsächlich ist es immer noch wahr, dass Element für Element . Was uns daran stören könnte, ist, dass wenn wir eine gewichtete Summe der Elemente der Vektoren wie und , wir auf die Tatsache , dass obwohl wir sagen .

V (x) \leq V (y)

$V(x) \le V(y)$

V (x_{k}) \leq V (y_{k})

$V(x_k) \le V(y_k)$

3 x_{1} + 2 x_{2}

$3x_1 + 2x_2$

3 y_{1} + 2 y_{2}

$3y_1 + 2y_2$

V (3 x_{1} + 2 x_{2}) > V (3 y_{1} + 2 y_{2})

$V(3x_1 + 2x_2) \gt V(3y_1 + 2y_2)$

V (x) \leq V (y)

$V(x) \le V(y)$

Das ist komisch, oder? Wenn und sind Skalare, dann gewährleistet , dass für jedes festen, nicht-zufällig , . $x$ $y$ $V(x) \le V(y)$ $a$ $V(ax) \le V(ay)$

Wenn wir aus irgendeinem Grund an linearen Kombinationen der Elemente der Zufallsvariablen wie diesen interessiert sind, möchten wir möglicherweise unsere Definition von für Varianzmatrizen verstärken. Vielleicht wollen wir genau dann sagen, wenn es wahr ist, dass , egal welche festen Zahlen und wir wählen. Beachten Sie , dies ist eine stärkere Definition als der Diagonalen nur für Definition , da , wenn wir holen heißt es , und wenn wir holen heißt es . $\le$ $V(x) \le V(y)$ $V(a_1x_1 + a_2x_2) \le V(a_1y_1 + a_2y_2)$ $a_1$ $a_2$ $a_1=1,a_2=0$ $V(x_1) \le V(y_1)$ $a_1=0,a_2=1$ $V(x_2) \le V(y_2)$

Diese zweite Definition, die genau dann sagt, wenn für jeden möglichen festen Vektor , ist die übliche Methode zum Vergleichen der Varianz Matrizen basierend auf positiver : Sehen Sie sich den letzten Ausdruck und die Definition des positiven Semidefinits an, um festzustellen, dass die Definition von für Varianzmatrizen genau gewählt wurde, um sicherzustellen, dass genau dann, wenn für eine beliebige Wahl von , dh wenn positiv semi ist -definit. $V(x) \le V(y)$ $V(a'x) \le V(a'y)$ $a$

\begin{aligned} V (a^{'} y) - V (a^{'} x) = a^{'} V (x) a - a^{'} V (y) a = a^{'} (V (x) - V (y)) a \end{aligned}

$\begin{align} V(a'y) - V(a'x) = a'V(x)a - a'V(y)a = a'\left(V(x) - V(y) \right)a \end{align}$

\leq

$\le$

V (x) \leq V (y)

$V(x) \le V(y)$

V (a^{'} x) \leq V (a^{'} y)

$V(a'x) \le V(a'y)$

a

$a$

(V (y) - V (x))

$\left( V(y)-V(x) \right)$

Die Antwort auf Ihre Frage lautet also, dass die Leute sagen, eine Varianzmatrix sei kleiner als eine Varianzmatrix wenn positiv ist, weil sie daran interessiert sind, die Varianzen linearer Kombinationen der Elemente der zugrunde liegenden Zufallsvektoren zu vergleichen. Welche Definition Sie wählen, hängt davon ab, was Sie berechnen möchten und wie diese Definition Ihnen bei diesen Berechnungen hilft. $V$ $W$ $W-V$

— Rechnung
quelle