Aus praktischer Sicht ...
LDA beginnt mit einer Wortsammlung, in der berücksichtigt wird, welche Wörter in Dokumenten gleichzeitig vorkommen, ohne jedoch auf den unmittelbaren Kontext von Wörtern zu achten. Dies bedeutet, dass die Wörter an einer beliebigen Stelle im Dokument und in beliebiger Reihenfolge erscheinen können, wodurch eine bestimmte Informationsebene entfernt wird. Im Gegensatz dazu dreht sich bei word2vec alles um den Kontext, in dem ein Wort verwendet wird - wenn auch möglicherweise nicht in exakter Reihenfolge.
LDAs "Themen" sind ein mathematisches Konstrukt und Sie sollten sie nicht mit tatsächlichen menschlichen Themen verwechseln. Es können Themen entstehen, die keine menschliche Interpretation haben - sie sind eher Artefakte des Prozesses als tatsächliche Themen - und es können Themen auf verschiedenen Abstraktionsebenen entstehen, einschließlich Themen, die im Grunde dasselbe menschliche Thema behandeln. Es ist ein bisschen wie beim Lesen von Teeblättern.
Ich habe festgestellt, dass LDA nützlich ist, um Daten zu untersuchen, aber nicht so nützlich, um eine Lösung bereitzustellen, aber Ihr Kilometerstand kann variieren.
Word2vec erstellt Themen überhaupt nicht direkt. Es projiziert Wörter in einen hochdimensionalen Raum, der auf einer ähnlichen Verwendung basiert, sodass es seine eigenen Überraschungen in Bezug auf Wörter haben kann, die Sie als verschieden - oder sogar entgegengesetzt - betrachten und die sich im Raum möglicherweise nahe beieinander befinden.
Sie können entweder verwenden, um festzustellen, ob Wörter "ähnlich" sind. Mit LDA: Haben die Wörter ähnliche Gewichte in den gleichen Themen. Mit word2vec: Sind sie (in gewissem Maße) nahe im Einbettungsraum.
Sie können entweder verwenden, um festzustellen, ob Dokumente ähnlich sind. Mit LDA würden Sie nach einer ähnlichen Mischung von Themen suchen, und mit word2vec würden Sie so etwas wie das Aufsummieren der Vektoren der Wörter des Dokuments tun. ("Dokument" kann ein Satz, ein Absatz, eine Seite oder ein gesamtes Dokument sein.) Doc2vec ist eine modifizierte Version von word2vec, mit der Dokumente direkt verglichen werden können.
Während LDA mit seinem Bag-of-Word-Ansatz einige kontextbezogene Informationen wegwirft, hat es Themen (oder "Themen"), die word2vec nicht hat. Mit doc2vec können Sie also ganz einfach sagen: "Zeigen Sie mir Dokumente, die diesem ähnlich sind", während Sie mit LDA ganz einfach sagen können: "Zeigen Sie mir Dokumente, bei denen Thema A im Vordergrund steht". (Wenn Sie wieder wissen, dass "Thema A" aus einem mathematischen Prozess in Ihren Dokumenten hervorgeht, finden Sie heraus, zu welchen menschlichen Themen es am meisten gehört.)