Grundlegendes zur Singularwertzerlegung im Kontext von LSI

Meine Frage bezieht sich allgemein auf Singular Value Decomposition (SVD) und insbesondere auf Latent Semantic Indexing (LSI).

Angenommen, ich habe , das Häufigkeiten von 5 Wörtern für 7 Dokumente enthält. $A_{word \times document}$

A =  matrix(data=c(2,0,8,6,0,3,1,
                   1,6,0,1,7,0,1,
                   5,0,7,4,0,5,6,
                   7,0,8,5,0,8,5,
                   0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')

I erhalten , die Matrix - Faktorisierung für von SVD verwendet: . $A$ $A = U \cdot D \cdot V^T$

s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.

In 1 und 2 heißt es:

$WordSim = U \cdot S$ gibt die Wortähnlichkeitsmatrix an , wobei die Zeilen von verschiedene Wörter darstellen. $WordSim$

WordSim = s$u %*% S

$DocSim= S \cdot V^T$ gibt die Dokumentähnlichkeitsmatrix an, in der die Spalten von verschiedene Dokumente darstellen. $DocSim$

DocSim = S %*% t(s$v)

Fragen:

Warum sind und Wort / Dokument-Ähnlichkeitsmatrizen algebraisch ? Gibt es eine intuitive Erklärung? $WordSim$ $DocSimS$
wir anhand des angegebenen R-Beispiels intuitive Beobachtungen zur und Ähnlichkeit von machen, indem wir nur und (ohne die oder den Korrelationskoeffizienten zwischen Zeilen / Spalten zu verwenden)? $WordSim$ $DocSim$

Geben Sie hier die Bildbeschreibung ein

r svd natural-language latent-semantic-indexing

— Zhubarb
quelle

A V = U D

$AV=UD$

A

$A$

A^{'} U = V D^{'}

$A'U=VD'$

A

$A$

Ah .. Ich sehe in Wikipedia, dass LSI nur Korrespondenzanalyse (CA) ist. Das ist besser. CA ist der Biplot einer speziell vorbereiteten Datentabelle. Die oben genannten Projektionen oder Koordinaten - Sie verwenden sie, um Zeilen- und Spaltenpunkte im Raum der Hauptachsen zu zeichnen. Die Nähe zwischen den Zeilen-Zeilen-, Spalten-Spalten- und Zeilen-Spalten-Punkten hängt mit ihrer Ähnlichkeit zusammen. Das Layout des Diagramms hängt jedoch davon ab, wie Sie die Trägheit (Varianz) über die Zeile und die Spaltenpunkte verteilen.

— ttnphns

A V = U D

$AV=UD$

A' U = V D'

$A ′ U=VD ′$

D

$D$

S

$S$

D

$D$

U D

$UD$

D V^{'}

$DV^\prime$

U S

$US$

S V^{'}

$SV^\prime$

A = U D V^{'} \approx U (S^{2}) V^{'} = (U S) (S V^{'}) .

$A=UDV^\prime\approx U(S^2)V^\prime=(US)(SV^\prime).$

D=svd(A)$d

U D

$UD$

Die Matrixfaktorisierung mit SVD zerlegt die Eingabematrix in drei Teile:

$U$
$D$ $D$ $U$ $V^T$
$V^T$

$WordSim$

— Pieter
quelle