Ich versuche eine Stimmungsanalyse durchzuführen. Um die Wörter in Wortvektoren umzuwandeln, verwende ich das word2vec-Modell. Angenommen, ich habe alle Sätze in einer Liste mit dem Namen "Sätze" und übergebe diese Sätze wie folgt an word2vec:
model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3)
Da ich keine Ahnung von Wortvektoren habe, habe ich zwei Zweifel.
1- Wenn Sie die Anzahl der Merkmale auf 300 einstellen, werden die Merkmale eines Wortvektors definiert. Aber was bedeuten diese Merkmale? Wenn jedes Wort in diesem Modell durch ein 1x300-Numpy-Array dargestellt wird, was bedeuten dann diese 300 Funktionen für dieses Wort?
2- Was macht das Down-Sampling, wie es im obigen Modell durch den Parameter 'sample' dargestellt wird, tatsächlich?
Danke im Voraus.