Ich habe an trainierten Daten für den Word2vec-Algorithmus gearbeitet. Da wir Wörter benötigen, um das Original zu erhalten, werden sie in der Vorverarbeitungsphase nicht in Kleinbuchstaben geschrieben. Somit gibt es Wörter mit unterschiedlichen Variationen (z. B. "Erde" und "Erde").
Die einzige Möglichkeit, die ich mir vorstellen kann, besteht darin, den Durchschnitt der Vektoren für "Erde" und "Erde" zu ermitteln, um einen einzelnen Vektor zur Darstellung des Wortes zu erstellen. (Da die Abmessungen des Merkmalsvektors ähnlich sind)
Ist das eine "okay" Methode? Wenn dies nicht der Fall ist, wie könnte dieses Problem möglicherweise gut gelöst werden?
Hinweis: Das Verringern aller Wörter in der Vorverarbeitung ist derzeit keine Option.
Bearbeiten: Die Informationen darüber, ob Feature-Dimensionen wirklich linear sind oder nicht, wären ebenfalls hilfreich.
Bearbeiten 2: Kombinieren Sie beide Antworten aus patapouf_ai
und yazhi
erzielen Sie die besten Ergebnisse. Wie werden diese kombiniert? Der gewichtete Durchschnitt verbesserte die Ergebnisse, aber das Durchführen von Wortfrequenzen durch eine skalierte Sigmoidfunktion ergab die besten Ergebnisse, da die lineare Verwendung von Wortfrequenzen ihnen mehr Bedeutung verleiht als sie tragen.