Als ich vor einigen Jahren lernte, Kovarianz- und Korrelationsmatrizen und ihre Inversen in VB und T-SQL zu berechnen, stellte ich fest, dass die verschiedenen Einträge interessante Eigenschaften haben, die sie in den richtigen Data Mining-Szenarien nützlich machen können. Ein offensichtliches Beispiel ist das Vorhandensein von Varianzen auf den Diagonalen von Kovarianzmatrizen; Einige weniger offensichtliche Beispiele, die ich noch nicht verwendet habe, die sich aber irgendwann als nützlich erweisen könnten, sind die Varianzinflationsfaktoren in inversen Korrelationsmatrizen und Teilkorrelationen in inversen Kovarianzmatrizen.
Eine Sache, die ich in der Literatur noch nicht direkt angesprochen habe, ist jedoch, wie die Determinanten dieser Matrizen zu interpretieren sind. Da Determinanten häufig für andere Arten von Matrizen berechnet werden, hatte ich erwartet, eine Menge Informationen darüber zu finden, aber ich bin bei gelegentlichen Suchen sowohl in den StackExchange-Foren als auch im Rest des Internets nur sehr wenig aufgetaucht. Die meisten Erwähnungen, denen ich begegnet bin, drehen sich um die Verwendung der Determinanten als einen einzigen Schritt bei der Berechnung anderer statistischer Tests und Algorithmen, wie z. B. der PCA (Principle Components Analysis) und eines von Hotellings Tests. Keiner befasst sich direkt mit der Interpretation dieser Determinanten. Gibt es einen praktischen Grund, warum sie in der Literatur zum Data Mining nicht häufig diskutiert werden? Wichtiger, Stellen sie nützliche Informationen eigenständig zur Verfügung und wenn ja, wie könnte ich die Determinanten der einzelnen Informationen interpretieren? Mir ist klar, dass Determinanten eine Art von vorzeichenbehaftetem Volumen sind, das durch eine lineare Transformation induziert wird, daher vermute ich, dass die Determinanten dieser bestimmten Determinanten eine Art volumetrisches Maß für Kovarianz oder Korrelation usw. über einen gesamten Satz oder etwas in diesem Sinne bedeuten könnten ( im Gegensatz zu gewöhnlicher Kovarianz und Korrelation, die zwischen zwei Attributen oder Variablen liegen). Das wirft auch die Frage auf, welche Art von Volumen ihre Inversen darstellen würden. Ich bin mit dem Thema oder der Mathematik der schweren Matrix nicht vertraut genug, um weiter zu spekulieren, aber ich bin in der Lage, alle vier Arten von Matrizen und ihre Determinanten zu codieren. Meine Frage drängt nicht, Auf lange Sicht muss ich jedoch entscheiden, ob es sich lohnt, diese Matrizen und ihre Determinanten regelmäßig in meine explorativen Data-Mining-Prozesse einzubeziehen. Es ist billiger, die Kovarianz und Korrelation in diesen bestimmten Sprachen eins zu eins und bivariat zu berechnen, aber ich werde die Extrameile gehen und Determinantenberechnungen implementieren, wenn ich tiefere Erkenntnisse ableiten kann, die die Kosten in Bezug auf rechtfertigen Programmierressourcen. Danke im Voraus. Ich werde noch einen Schritt weiter gehen und Determinantenberechnungen implementieren, wenn ich tiefere Erkenntnisse gewinnen kann, die die Kosten in Bezug auf Programmierressourcen rechtfertigen. Danke im Voraus. Ich werde noch einen Schritt weiter gehen und Determinantenberechnungen implementieren, wenn ich tiefere Erkenntnisse gewinnen kann, die die Kosten in Bezug auf Programmierressourcen rechtfertigen. Danke im Voraus.