Da Sie gensim verwenden, sollten Sie wahrscheinlich die doc2vec-Implementierung verwenden. doc2vec ist eine Erweiterung von word2vec auf Phrasen-, Satz- und Dokumentebene. Es ist eine ziemlich einfache Erweiterung, die hier beschrieben wird
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim ist nett, weil es intuitiv, schnell und flexibel ist. Was großartig ist, ist, dass Sie die vorab trainierten Worteinbettungen von der offiziellen word2vec-Seite abrufen können und die syn0-Ebene des Doc2Vec-Modells von gensim freigelegt wird, sodass Sie die Worteinbettungen mit diesen hochwertigen Vektoren erstellen können!
GoogleNews-vectors-negative300.bin.gz (wie in Google Code verlinkt )
Ich denke, Gensim ist definitiv das einfachste (und für mich bisher beste) Werkzeug, um einen Satz in einen Vektorraum einzubetten.
Es gibt andere Satz-zu-Vektor-Techniken als die oben in Le & Mikolovs Artikel vorgeschlagene. Socher und Manning aus Stanford sind sicherlich zwei der bekanntesten Forscher auf diesem Gebiet. Ihre Arbeit basiert auf dem Prinzip der Komposition - die Semantik des Satzes stammt aus:
1. semantics of the words
2. rules for how these words interact and combine into phrases
Sie haben einige solcher Modelle vorgeschlagen (die immer komplexer werden), um mithilfe der Komposition Kompositionen auf Satzebene zu erstellen.
2011 - Entfaltung eines rekursiven Autoencoders (sehr vergleichsweise einfach. Bei Interesse hier beginnen)
2012 - Matrix-Vektor-Neuronales Netzwerk
2013 - neuronales Tensornetzwerk
2015 - Baum LSTM
Seine Papiere sind alle auf socher.org erhältlich. Einige dieser Modelle sind verfügbar, aber ich würde trotzdem gensims doc2vec empfehlen. Zum einen ist die URAE 2011 nicht besonders leistungsstark. Darüber hinaus ist es mit Gewichten ausgestattet, die zum Paraphrasieren von Nachrichtendaten geeignet sind. Mit dem von ihm bereitgestellten Code können Sie das Netzwerk nicht neu trainieren. Sie können auch nicht in verschiedene Wortvektoren tauschen, sodass Sie bei den Einbettungen von Turian vor Word2vec aus dem Jahr 2011 nicht weiterkommen. Diese Vektoren befinden sich sicherlich nicht auf der Ebene von word2vec oder GloVe.
Ich habe noch nicht mit dem Tree LSTM gearbeitet, aber es scheint sehr vielversprechend!
tl; dr Ja, benutze gensims doc2vec. Es gibt aber auch andere Methoden!