Wie interpretiere ich eine inverse Kovarianz- oder Präzisionsmatrix?

64

Ich habe mich gefragt, ob mich jemand auf einige Referenzen hinweisen könnte, die die Interpretation der Elemente der inversen Kovarianzmatrix, auch als Konzentrationsmatrix oder Präzisionsmatrix bekannt, diskutieren.

Ich habe Zugang zu Cox und Wermuths multivariaten Abhängigkeiten , aber was ich suche, ist eine Interpretation jedes Elements in der inversen Matrix. Wikipedia sagt : "Die Elemente der Präzisionsmatrix haben eine Interpretation in Bezug auf Teilkorrelationen und Teilvarianzen", was mich zu dieser Seite führt. Gibt es eine Interpretation ohne lineare Regression? IE, in Bezug auf Kovarianzen oder Geometrie?

interpretation covariance-matrix

— Vinh Nguyen
quelle

4

Hast du die gesamte Wikipedia-Seite gelesen? Es gibt einen Abschnitt über Geometrie und bedingte Unabhängigkeit für die Normalverteilung. Mehr finden Sie in diesem Buch .

— NRH

@NRH Die Geometrie wird auf der Seite mit den Teilkorrelationen erläutert, auf der ich noch nicht einmal sicher bin, wie sie mit der Konzentrationsmatrix zusammenhängt. Enthält dieses Buch mit grafischen Modellen eine Erklärung der Elemente der Konzentrationsmatrix? Vielen Dank!

— Vinh Nguyen

Siehe Antwort unten.

— NRH

2

Siehe auch Warum führt die Inversion einer Kovarianzmatrix zu Teilkorrelationen zwischen Zufallsvariablen?

— Amöbe sagt Reinstate Monica

34

Grundsätzlich sind zwei Dinge zu sagen. Der erste ist, dass die Dichte für die multivariate Normalverteilung (hier mit dem Mittelwert 0) proportional zu wobeidie Inverse der Kovarianzmatrix ist, auch Präzision genannt. Diese Matrix ist positiv definit und definiert über eininneres Produktauf. Die resultierende Geometrie, die dem Konzept der Orthogonalität eine spezifische Bedeutung verleiht und eine Norm in Bezug auf die Normalverteilung definiert, ist wichtig, und um beispielsweise den geometrischen Inhalt vonLDAzu verstehen,müssen Sie die Dinge im Lichte der angegebenen Geometrie betrachten durch

\exp (- \frac{1}{2} X^{T} P X)

$\exp\left(-\frac{1}{2}x^T P x\right)$

P = Σ^{- 1}

$P = \Sigma^{-1}$

(X, y) \mapsto X^{T} P y

$(x,y) \mapsto x^T P y$

R^{p}

$\mathbb{R}^p$

.

P

$P$

Zum anderen können die Teilkorrelationen direkt aus abgelesen werden , siehe hier . Dieselbe Wikipedia-Seite gibt an, dass die Teilkorrelationen und damit die Einträge von eine geometrische Interpretation in Bezug auf den Kosinus zu einem Winkel haben. Was im Zusammenhang mit Teilkorrelationen vielleicht wichtiger ist, ist, dass die Teilkorrelation zwischen und nur dann 0 ist, wenn der Eintrag in Null ist. Für die Normalverteilung sind die Variablen und dann bedingt unabhängig $P$ $P$ $X_i$ $X_j$ $i,j$ $P$ $X_i$ $X_j$ alle anderen Variablen gegeben. Darum geht es in Steffens Buch, auf das ich im obigen Kommentar hingewiesen habe. Bedingte Unabhängigkeit und grafische Modelle. Es hat eine ziemlich vollständige Behandlung der Normalverteilung, aber es kann nicht so einfach sein, zu folgen.

— NRH
quelle

1

Entschuldigung, ich bin ein bisschen verwirrt über die Wikipedia-Formel für teilweise Korrelation. Ich habe mehrere Implementierungen gesehen, die

- \frac{p_{i j}}{\sqrt{p_{i i} p_{j j}}}

${\bf\color{red} -} \frac{p_{ij}}{ \sqrt{p_{ii} p_{jj}}}$

1

@Sh3ljohn, du hast vollkommen recht. In der Wikipedia-Formel fehlt ein Minus.

— NRH

Spricht die erste Antwort nicht mehr über die Fisher-Informationen als über die Präzisionsmatrix? Ich meine, sie stimmen im wirklich speziellen / schönen Gaußschen Fall überein, aber sie stimmen im Allgemeinen nicht überein. Offensichtlich hängen die beiden Konzepte zusammen (Cramer-Rao-Untergrenze, asymptotische Verteilung von MLE usw.), aber es scheint nicht hilfreich zu sein, sie zusammenzuführen (speziell bin ich auf diese Frage gekommen, um seine Frage zu untersuchen, wie man Fisher-Informationen von denen unterscheidet inverse Korrelationsmatrix).

— Chill2Macht

24

Ich mag dieses probabilistische grafische Modell, um den Punkt von NRH zu veranschaulichen, dass die partielle Korrelation nur dann Null ist, wenn X von Y bei Z bedingt unabhängig ist, mit der Annahme, dass alle beteiligten Variablen multivariate Gauß-Variablen sind (die Eigenschaft gilt im allgemeinen Fall nicht). :

Bildbeschreibung hier eingeben

$y_i$

Quelle: David MacKays Vortrag über Gaußsche Prozessgrundlagen , 25. Minute.

— Franck Dernoncourt
quelle

12

Die auf Teilkorrelationen basierende Interpretation ist wahrscheinlich die statistisch sinnvollste, da sie für alle multivariaten Verteilungen gilt. In dem Spezialfall der multivariaten Normalverteilung entspricht eine partielle Korrelation von Null einer bedingten Unabhängigkeit.

Sie können diese Interpretation ableiten, indem Sie das Schur-Komplement verwenden, um eine Formel für die Einträge der Konzentrationsmatrix in Bezug auf die Einträge der Kovarianzmatrix zu erhalten. Siehe http://en.wikipedia.org/wiki/Schur_complement#Applications_to_probability_theory_and_statistics

— vqv
quelle

11

Die Kovarianzmatrix kann die Beziehung zwischen allen Variablen darstellen, während die inverse Kovarianz die Beziehung des Elements zu ihren Nachbarn beschreibt (wie in Wikipedia als partielle / paarweise Beziehung bezeichnet).

Ich leihe mir das folgende Beispiel von hier in 24:10, vorstellen 5 Massen miteinander verbunden sind und vowelling um mit 6 Federn Kovarianzmatrix Korrelation aller Massen enthalten würde, wenn man rechts geht, andere können auch rechts geht. Die inverse Kovarianzmatrix zeigt jedoch das Verhältnis der Massen, die durch dieselbe Feder (Nachbarn) verbunden sind, und enthält viele Nullen und ist nicht unbedingt positiv.

— user4581
quelle

1

Wo wird das im Video erklärt? Es ist eine Stunde lang. Vielen Dank!

— Vinh Nguyen

Sie haben Recht, es ist 24:10 Uhr. Ich denke, das ist das beste Beispiel, um die Natur der cov-Matrix und ihrer Umkehrung zu verstehen

— user4581

5

Bar-Shalom und Fortmann (1988) erwähnen die inverse Kovarianz im Zusammenhang mit der Kalman-Filterung wie folgt:

... [T] hier ist eine Rekursion für die inverse Kovarianz (oder Informationsmatrix )

$\mathbf{P}^{-1}(k+1|k+1) = \mathbf{P}^{-1}(k+1|k) + \mathbf{H}'(k+1) \mathbf{R}^{-1}(k+1)\mathbf{H}(k+1)$

$\mathbf{P}^{-1}\hat{\mathbf{x}}$

Das Buch ist bei Google indiziert .

— heller Stern
quelle