Empirisch habe ich festgestellt, dass LSA LDA jedes Mal und bei jedem Datensatz, an dem ich es ausprobiert habe, weit überlegen ist. Ich habe mit anderen Menschen gesprochen, die dasselbe gesagt haben. Es wurde auch verwendet, um eine Reihe von SemEval-Wettbewerben für das Messen der semantischen Ähnlichkeit zwischen Dokumenten zu gewinnen, häufig in Kombination mit einem auf Wordnet basierenden Maß für Themenmodellierung und nicht semantische Ähnlichkeit in meiner Erfahrung, im Gegensatz zu dem, was einige Responder angegeben haben.
Wenn Sie gensim (eine Python-Bibliothek) verwenden, hat es LSA, LDA und word2vec, so dass Sie das 3. doc2vec leicht vergleichen können. Doc2vec ist eine coole Idee, lässt sich aber nicht sehr gut skalieren, und Sie müssen es wahrscheinlich selbst implementieren, wie ich es bin keine Kenntnis von Open-Source-Implementierungen. Es ist nicht gut skalierbar, da für jedes Dokument ein neues und separates Modell mit SGD, einem langsamen Algorithmus für maschinelles Lernen, erstellt werden muss. Aber es gibt Ihnen wahrscheinlich die genauesten Ergebnisse. LSA und LDA skalieren ebenfalls nicht gut (word2vec jedoch), LDA skaliert im Allgemeinen schlechter. Die Implementierungen von Gensim sind jedoch sehr schnell, da iterative SVD verwendet wird.
Ein weiterer Hinweis: Wenn Sie word2vec verwenden, müssen Sie immer noch festlegen, wie Vektoren aus Dokumenten zusammengesetzt werden sollen, da Sie einen anderen Vektor pro Wort erhalten. Der einfachste Weg, dies zu tun, besteht darin, jeden Vektor zu normalisieren und den Mittelwert über alle Wortvektoren im Dokument zu nehmen, oder einen gewichteten Mittelwert durch idf-Gewichtung jedes Wortes zu nehmen. Es ist also nicht so einfach wie 'use word2vec', Sie müssen etwas weiter machen, um die Ähnlichkeit von Dokumenten zu berechnen.
Ich persönlich würde mit LSA gehen, da ich gesehen habe, dass es empirisch gut funktioniert und Gensims Bibliothek sehr gut skaliert. Es gibt jedoch kein kostenloses Mittagessen. Probieren Sie daher am besten jede Methode aus, um herauszufinden, welche für Ihre Daten besser geeignet ist.