Was bedeuten die Eigenvektoren einer gegenseitigen Informationsmatrix?


14

Wenn wir die Eigenvektoren der Kovarianzmatrix betrachten, erhalten wir die Richtungen der maximalen Varianz (der erste Eigenvektor ist die Richtung, in der die Daten am stärksten variieren, usw.); Dies wird als Hauptkomponentenanalyse (PCA) bezeichnet.

Ich fragte mich, was es bedeuten würde, auf die Eigenvektoren / Werte der gegenseitigen Informationsmatrix zu schauen, würden sie in Richtung der maximalen Entropie zeigen?


4
Ich weiß es nicht, habe aber gerade erfahren, dass gegenseitige Informationsmatrizen nicht immer positiv sind: arxiv.org/abs/1307.6673 .
Amöbe sagt Reinstate Monica

3
Es erinnert an etwas, an dem wir gearbeitet haben: people.eng.unimelb.edu.au/baileyj/papers/frp0038-Vinh.pdf
Simone

Antworten:


3

Während es sich nicht um eine direkte Antwort handelt (da es sich um punktweise gegenseitige Informationen handelt), sehen Sie sich das Papier an, das word2vec mit einer Singularwertzerlegung der PMI-Matrix in Beziehung setzt :

Wir analysieren Skip-Gram mit Negativ-Sampling (SGNS), einem von Mikolov et al. Eingeführten Verfahren zur Worteinbettung, und zeigen, dass es implizit eine Wortkontextmatrix faktorisiert, deren Zellen die punktweise gegenseitige Information (Pointwise Mutual Information, PMI) der jeweiligen Person sind Wort- und Kontextpaare, verschoben um eine globale Konstante. Wir stellen fest, dass eine andere Einbettungsmethode, NCE, implizit eine ähnliche Matrix faktorisiert, wobei jede Zelle die (verschobene) logarithmische bedingte Wahrscheinlichkeit eines Wortes in Anbetracht seines Kontexts ist. Wir zeigen, dass die Verwendung einer spärlichen Shifted Positive PMI-Wortkontextmatrix zur Darstellung von Wörtern die Ergebnisse bei zwei Wortähnlichkeitsaufgaben und einer von zwei Analogieaufgaben verbessert. Wenn dichte niedrigdimensionale Vektoren bevorzugt werden, können durch exakte Faktorisierung mit SVD Lösungen erzielt werden, die mindestens so gut sind wie die Lösungen von SGNS für Wortähnlichkeitsaufgaben. In analogen Fragen bleibt SGNS SVD überlegen. Wir vermuten, dass dies auf die Gewichtung der Faktorisierung von SGNS zurückzuführen ist.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.