Ich arbeite an der Stimmungsanalyse über Tweets mit word2vec als Wortdarstellung.
Ich habe mein word2vec-Modell trainiert. Aber wenn ich meinen Klassifikator trainiere, habe ich das Problem, dass jeder Tweet eine andere Länge hat und der Klassifikator (RandomForest) alle Beispiele benötigt, um die gleiche Größe zu haben.
Derzeit mittle ich für jeden Tweet die Vektoren aller seiner Wörter, um eine Vektordarstellung des Tweets zu erhalten.
Beispiel: Mein word2vec-Modell repräsentiert jedes Wort als Vektoren der Größe 300.
Ich habe Tweet1
aus 10 Wörtern und Tweet2
aus 5 Wörtern gebildet.
Also, was ich tue, ist für Tweet1
(v1_Tweet1 + v2_Tweet1 + ... +v10_Tweet1)/10 = v_Tweet1 #avg vector of 300 elements.
Für Tweet2
:
(v1_Tweet2 + v2_Tweet2 + ... +v5_Tweet1)/5 = v_Tweet2 #avg vector of 300 elements.
* Als v1_TweetX der Vektor des ersten Wortes des TweetX und so weiter.
Das funktioniert gut, aber ich würde gerne wissen, welche anderen Ansätze Sie wählen, um die unterschiedlichen Größen im Zug und die Textbeispiele für den Klassifikator zu überwinden.
Vielen Dank.