Ich verwende die latente semantische Indizierung, um Ähnlichkeiten zwischen Dokumenten zu finden ( danke, JMS! )
Nach der Dimensionsreduzierung habe ich versucht, mit k-means Clustering die Dokumente in Cluster zu gruppieren, was sehr gut funktioniert. Ich möchte jedoch noch einen Schritt weiter gehen und die Dokumente als eine Reihe von Knoten visualisieren, bei denen der Abstand zwischen zwei beliebigen Knoten umgekehrt proportional zu ihrer Ähnlichkeit ist (Knoten, die sehr ähnlich sind, liegen nahe beieinander).
Es fällt mir auf, dass ich eine Ähnlichkeitsmatrix nicht genau auf einen zweidimensionalen Graphen reduzieren kann, da meine Daten> 2 Dimensionen haben. Meine erste Frage: Gibt es einen Standardweg, um dies zu tun?
Könnte ich meine Daten einfach auf zwei Dimensionen reduzieren und sie dann als X- und Y-Achse darstellen, und würde das für eine Gruppe von ~ 100-200 Dokumenten ausreichen? Wenn dies die Lösung ist, ist es besser, meine Daten von Anfang an auf zwei Dimensionen zu reduzieren, oder gibt es eine Möglichkeit, die beiden "besten" Dimensionen aus meinen mehrdimensionalen Daten auszuwählen?
Ich benutze Python und die Gensim-Bibliothek, wenn das einen Unterschied macht.