Diese Begriffe werden oft zusammengewürfelt, aber ich würde gerne wissen, was Ihrer Meinung nach die Unterschiede sind, wenn überhaupt.
Vielen Dank
Diese Begriffe werden oft zusammengewürfelt, aber ich würde gerne wissen, was Ihrer Meinung nach die Unterschiede sind, wenn überhaupt.
Vielen Dank
Antworten:
LSA und LSI werden meist synonym verwendet, wobei die Information Retrieval Community sie normalerweise als LSI bezeichnet. LSA / LSI verwendet SVD, um die Termdokumentmatrix A in eine Termkonzeptmatrix U, eine Singularwertmatrix S und eine Konzeptdokumentmatrix V in der Form A = USV 'zu zerlegen. Die Wikipedia-Seite enthält eine detaillierte Beschreibung der latenten semantischen Indizierung .
Während LSA und LSI SVD verwenden, um ihre Magie zu entfalten, gibt es eine rechnerisch und konzeptionell einfachere Methode namens HAL (Hyperspace Analogue to Language), die den Text durchsucht und die vorherigen und nachfolgenden Kontexte verfolgt. Aus diesen (oft gewichteten) Co-Auftritts-Matrizen werden Vektoren extrahiert und bestimmte Wörter ausgewählt, um den semantischen Raum zu indizieren. In vielerlei Hinsicht habe ich die Gewissheit, dass es genauso gut funktioniert wie LSA, ohne dass der mathematisch / konzeptionell komplexe Schritt der SVD erforderlich ist. Siehe Lund & Burgess, 1996 für Details.
NMF und SVD sind beide Matrixfaktorisierungsalgorithmen. Wikipedia hat einige relevante Informationen zu NMF .
), sind die Singulärwerte einfach die Absolutwerte des Eigenwerts. In jedem Fall sind die Singularwerte nicht negativ, und der Verlust des Vorzeichens der Eigenwerte ist der Preis, den Sie dafür zahlen, dass Sie mit nicht quadratischen Matrizen arbeiten können.
Die anderen Responder haben LSI / LSA abgedeckt ...