Haben die Determinanten von Kovarianz- und Korrelationsmatrizen und / oder ihre Umkehrungen nützliche Interpretationen?

Als ich vor einigen Jahren lernte, Kovarianz- und Korrelationsmatrizen und ihre Inversen in VB und T-SQL zu berechnen, stellte ich fest, dass die verschiedenen Einträge interessante Eigenschaften haben, die sie in den richtigen Data Mining-Szenarien nützlich machen können. Ein offensichtliches Beispiel ist das Vorhandensein von Varianzen auf den Diagonalen von Kovarianzmatrizen; Einige weniger offensichtliche Beispiele, die ich noch nicht verwendet habe, die sich aber irgendwann als nützlich erweisen könnten, sind die Varianzinflationsfaktoren in inversen Korrelationsmatrizen und Teilkorrelationen in inversen Kovarianzmatrizen.

Eine Sache, die ich in der Literatur noch nicht direkt angesprochen habe, ist jedoch, wie die Determinanten dieser Matrizen zu interpretieren sind. Da Determinanten häufig für andere Arten von Matrizen berechnet werden, hatte ich erwartet, eine Menge Informationen darüber zu finden, aber ich bin bei gelegentlichen Suchen sowohl in den StackExchange-Foren als auch im Rest des Internets nur sehr wenig aufgetaucht. Die meisten Erwähnungen, denen ich begegnet bin, drehen sich um die Verwendung der Determinanten als einen einzigen Schritt bei der Berechnung anderer statistischer Tests und Algorithmen, wie z. B. der PCA (Principle Components Analysis) und eines von Hotellings Tests. Keiner befasst sich direkt mit der Interpretation dieser Determinanten. Gibt es einen praktischen Grund, warum sie in der Literatur zum Data Mining nicht häufig diskutiert werden? Wichtiger, Stellen sie nützliche Informationen eigenständig zur Verfügung und wenn ja, wie könnte ich die Determinanten der einzelnen Informationen interpretieren? Mir ist klar, dass Determinanten eine Art von vorzeichenbehaftetem Volumen sind, das durch eine lineare Transformation induziert wird, daher vermute ich, dass die Determinanten dieser bestimmten Determinanten eine Art volumetrisches Maß für Kovarianz oder Korrelation usw. über einen gesamten Satz oder etwas in diesem Sinne bedeuten könnten ( im Gegensatz zu gewöhnlicher Kovarianz und Korrelation, die zwischen zwei Attributen oder Variablen liegen). Das wirft auch die Frage auf, welche Art von Volumen ihre Inversen darstellen würden. Ich bin mit dem Thema oder der Mathematik der schweren Matrix nicht vertraut genug, um weiter zu spekulieren, aber ich bin in der Lage, alle vier Arten von Matrizen und ihre Determinanten zu codieren. Meine Frage drängt nicht, Auf lange Sicht muss ich jedoch entscheiden, ob es sich lohnt, diese Matrizen und ihre Determinanten regelmäßig in meine explorativen Data-Mining-Prozesse einzubeziehen. Es ist billiger, die Kovarianz und Korrelation in diesen bestimmten Sprachen eins zu eins und bivariat zu berechnen, aber ich werde die Extrameile gehen und Determinantenberechnungen implementieren, wenn ich tiefere Erkenntnisse ableiten kann, die die Kosten in Bezug auf rechtfertigen Programmierressourcen. Danke im Voraus. Ich werde noch einen Schritt weiter gehen und Determinantenberechnungen implementieren, wenn ich tiefere Erkenntnisse gewinnen kann, die die Kosten in Bezug auf Programmierressourcen rechtfertigen. Danke im Voraus. Ich werde noch einen Schritt weiter gehen und Determinantenberechnungen implementieren, wenn ich tiefere Erkenntnisse gewinnen kann, die die Kosten in Bezug auf Programmierressourcen rechtfertigen. Danke im Voraus.

— SQLServerSteve
quelle

Was verstehen Sie unter gewöhnlicher Kovarianz oder Korrelation?

— Subhash C. Davar

Ich war in der Lage, einige allgemeine Prinzipien, Anwendungsfälle und Eigenschaften dieser Matrizen aus einer Reihe von Quellen zusammenzuschustern. Nur wenige von ihnen sprechen diese Themen direkt an, wobei die meisten nur beiläufig erwähnt werden. Da Determinanten signierte Volumina darstellen, erwartete ich, dass diejenigen, die sich auf diese vier Arten von Matrizen beziehen, sich in mehrdimensionale Assoziationsmaße irgendeiner Art übersetzen würden; Dies stellte sich bis zu einem gewissen Grad als richtig heraus, aber einige von ihnen weisen interessante Eigenschaften auf:

Kovarianzmatrizen:

• Bei einer Gaußschen Verteilung misst die Determinante indirekt die Differentialentropie, die als Streuung der Datenpunkte über das Volumen der Matrix ausgelegt werden kann. Siehe die Antwort von tmp unter Was gibt Determinante der Kovarianzmatrix ? für Details.

• Alexander Vigodners Antwort im selben Thread besagt, dass er auch die Eigenschaft der Positivität besitzt.

• Die Kovarianzmatrix-Determinante kann als verallgemeinerte Varianz interpretiert werden. Siehe das NIST-Statistikhandbuch auf Seite 6.5.3.2. Determinante und Eigenstruktur .

Inverse Kovarianzmatrizen:

• Es entspricht der Umkehrung der verallgemeinerten Varianz, die die Kovarianzmatrix-Determinante darstellt. Die Maximierung der Determinante der inversen Kovarianzmatrix kann anscheinend als Ersatz für die Berechnung der Determinante der Fisher-Informationsmatrix verwendet werden, die zur Optimierung des Versuchsaufbaus verwendet werden kann. Siehe die Antwort von kjetil b halvorsen auf den CV-Thread Determinant of Fisher Information

Korrelationsmatrizen:

• Diese sind viel interessanter als Kovarianzmatrix-Determinanten, da das Korrelationsvolumen abnimmt, wenn sich die Determinante 1 nähert, und zunimmt, wenn sich letztere 0 nähert. Dies ist das Gegenteil von gewöhnlichen Korrelationskoeffizienten, bei denen höhere Zahlen eine größere positive Korrelation anzeigen. "Die Determinante der Korrelationsmatrix ist nur dann gleich 1,0, wenn alle Korrelationen gleich 0 sind, andernfalls ist die Determinante kleiner als 1. Denken Sie daran, dass die Determinante mit dem Volumen des Raums zusammenhängt, den der Schwarm von Datenpunkten einnimmt, die durch Standardwerte dargestellt werden die beteiligten Maße. Wenn die Maße nicht korreliert sind, ist dieser Raum eine Kugel mit einem Volumen von 1. Wenn die Maße korreliert sind, wird der belegte Raum zu einem Ellipsoid, dessen Volumen kleiner als 1 ist. " SehenDieser Satz von Tulane-Kursnotizen und diese Quora-Seite .

• Ein weiteres Zitat für dieses unerwartete Verhalten: "Die Determinante einer Korrelationsmatrix wird Null oder nahe Null, wenn einige der Variablen perfekt korreliert oder stark miteinander korreliert sind." Siehe Rakesh Pandeys Frage Wie geht man mit dem Problem der Determinante nahe Null bei der Rechenzuverlässigkeit mit SPSS um?

• Eine dritte Referenz: "Ein sehr kleines det (R) bedeutet nur, dass Sie einige Variablen haben, die fast linear abhängig sind." Carlos Massera Filhos Antwort in diesem CrossValidated-Thread.

• Die Determinanten folgen auch einer Skala von 0 bis 1, die sich sowohl von der Skala von -1 bis 1 unterscheidet, der Korrelationskoeffizienten folgen. Ihnen fehlt auch das Zeichen, dass eine gewöhnliche Determinante die Ausrichtung eines Volumens ausdrücken kann. Ob die Korrelationsdeterminante immer noch einen Begriff von Direktionalität darstellt oder nicht, wurde in keiner der von mir gefundenen Literatur angesprochen.

Inverse Korrelationsmatrizen:

• Eine Google-Suche nach den kombinierten Begriffen "inverse Korrelationsmatrix" und "Determinante" ergab nur 50 Treffer, sodass sie anscheinend nicht häufig für statistische Überlegungen verwendet werden.

• Offensichtlich kann die Minimierung der inversen Korrelationsdeterminante in einigen Situationen nützlich sein, da ein Patent für die Echokompensation unter Verwendung adaptiver Filter besteht, das ein Regularisierungsverfahren enthält, das genau dafür ausgelegt ist. Siehe S. 5 in diesem Patentdokument .

• p. 5 von Robust Technology mit Analyse der Interferenz in der Signalverarbeitung (verfügbar in Google Books Previews) von Telman Aliev scheint darauf hinzudeuten, dass die "schlechte Bestimmung" einer Korrelationsmatrix mit der Instabilität der Determinante der inversen Korrelationsmatrizen zusammenhängt. Mit anderen Worten, wilde Änderungen seiner Determinante im Verhältnis zu kleinen Änderungen seiner Bestandteile hängen damit zusammen, wie viele Informationen von den Korrelationsmatrizen erfasst werden.

Es kann andere Eigenschaften und Anwendungsfälle dieser Determinanten geben, die hier nicht aufgeführt sind. Ich werde diese nur der Vollständigkeit halber veröffentlichen und eine Antwort auf die von mir gestellte Frage geben, falls jemand anderes auf praktische Anwendungen für diese Interpretationen stößt (wie ich es bei Korrelationsdeterminanten getan habe).

— SQLServerSteve
quelle

Ich werde eine Weile länger warten, bevor ich meine eigene Antwort akzeptiere, in der Hoffnung, dass jemand Qualifizierteres mitkommt und eine bessere liefert.

— SQLServerSteve

Gute Antwort! Ich würde hinzufügen, dass Deteminanten in "Diversity Priors" verwendet werden können, dh um latente Variablenmodelle zu ermutigen, nicht zu beschissenen lokalen Optima zu kollabieren, bei denen mehrere latente Variablen identisch sind. Zum Beispiel: papers.nips.cc/paper/…

— eric_kernfeld

Danke :) Vielleicht sollte ich Ihren Kommentar zur Antwort hinzufügen (natürlich mit Kredit), nachdem ich das Papier gelesen habe? Ich bin nicht auf Bayesian Priors, also kann es einige Zeit dauern, bis ich verdaut bin.

— SQLServerSteve

Ich habe meine eigene Antwort akzeptiert, werde sie aber nicht akzeptieren, wenn eine bessere veröffentlicht wird. Ich hätte gerne noch mehr Input zu diesen Interpretationen.

— SQLServerSteve