Ich untersuche verschiedene Techniken, die beim Clustering von Dokumenten zum Einsatz kommen, und möchte einige Zweifel in Bezug auf PCA (Principal Component Analysis) und LSA (Latent Semantic Analysis) klären.
Erste Sache - was sind die Unterschiede zwischen ihnen? Ich weiß, dass in PCA die SVD-Zerlegung auf die Term-Kovarianz-Matrix angewendet wird, während sie in LSA die Term-Dokument-Matrix ist. Gibt es noch etwas?
Zweitens: Welche Rolle spielen sie beim Clustering von Dokumenten? Aus dem, was ich bisher gelesen habe, schließe ich, dass ihr Zweck darin besteht, die Dimensionalität zu verringern, das Rauschen zu verringern und die Beziehungen zwischen Begriffen in die Darstellung einzubeziehen. Nach der Ausführung von PCA oder LSA werden traditionelle Algorithmen wie k-means oder agglomerative Methoden auf den reduzierten Termraum angewendet und typische Ähnlichkeitsmaße wie der Kosinusabstand verwendet. Bitte korrigieren Sie mich, falls ich falsch liege.
Drittens - spielt es eine Rolle, ob die TF / IDF-Termvektoren vor dem Anwenden von PCA / LSA normalisiert werden oder nicht? Und sollten sie danach wieder normalisiert werden?
Viertens: Nehmen wir an, ich habe einige Cluster für den durch LSA / PCA reduzierten Begriff "Space" durchgeführt. Wie soll ich nun den Ergebnis-Clustern Beschriftungen zuweisen? Da die Dimensionen nicht den tatsächlichen Wörtern entsprechen, ist dies ein schwieriges Thema. Die einzige Idee, die mir in den Sinn kommt, ist die Berechnung von Zentroiden für jeden Cluster unter Verwendung der ursprünglichen Termvektoren und die Auswahl der Terme mit der höchsten Gewichtung, aber das klingt nicht sehr effizient. Gibt es spezielle Lösungen für dieses Problem? Ich konnte nichts finden.
Für die Klärung dieser Fragen bin ich sehr dankbar.