Ich möchte Latent Dirichlet Allocation für ein Projekt verwenden und verwende Python mit der Gensim-Bibliothek. Nachdem ich die Themen gefunden habe, möchte ich die Dokumente mit einem Algorithmus wie k-means gruppieren (idealerweise möchte ich einen guten für überlappende Cluster verwenden, damit jede Empfehlung begrüßt wird). Ich habe es geschafft, die Themen zu bekommen, aber sie haben folgende Form:
0,041 * Minister + 0,041 * Schlüssel + 0,041 * Momente + 0,041 * umstritten + 0,041 * Prime
Um einen Clustering-Algorithmus anzuwenden und mich zu korrigieren, wenn ich falsch liege, sollte ich meines Erachtens einen Weg finden, jedes Wort als Zahl mit tfidf oder word2vec darzustellen.
Haben Sie Ideen, wie ich die Textinformationen beispielsweise aus einer Liste "entfernen" und dann zurücksetzen könnte, um die entsprechende Multiplikation vorzunehmen?
So wie ich es zum Beispiel sehe, wenn das Wort Minister ein tfidf-Gewicht von 0,042 usw. für jedes andere Wort innerhalb desselben Themas hat, sollte ich Folgendes berechnen:
0,041 * 0,42 + ... + 0,041 * tfidf (Prime) und erhalten ein Ergebnis, das später verwendet wird, um die Ergebnisse zu gruppieren.
Vielen Dank für Ihre Zeit.