Ich frage mich, wie ich Sätze / Absätze / Dokumente mit doc2vec in gensim kennzeichnen kann - aus praktischer Sicht.
Müssen Sie für jeden Satz / Absatz / jedes Dokument eine eindeutige Bezeichnung haben (z. B. "Sent_123")? Dies scheint nützlich zu sein, wenn Sie sagen möchten, welche Wörter oder Sätze einem bestimmten Satz mit der Bezeichnung "Sent_123" am ähnlichsten sind.
Können Sie die Beschriftungen je nach Inhalt wiederholen lassen? Wenn sich beispielsweise jeder Satz / Absatz / Dokument auf einen bestimmten Produktartikel bezieht (und für einen bestimmten Produktartikel mehrere Sätze / Absätze / Dokumente vorhanden sind), können Sie die Sätze basierend auf dem Artikel kennzeichnen und dann die Ähnlichkeit zwischen einem Wort oder einem berechnen satz und dieses etikett (was ich für einen durchschnitt aller sätze halte, die mit dem produktartikel zu tun hatten)?