Für eine NLP-Aufgabe (Natural Language Processing) werden häufig word2vec-Vektoren als Einbettung für die Wörter verwendet. Es kann jedoch viele unbekannte Wörter geben, die nicht von den word2vec-Vektoren erfasst werden, einfach weil diese Wörter in den Trainingsdaten nicht oft genug gesehen werden (viele Implementierungen verwenden eine Mindestanzahl, bevor dem Wortschatz ein Wort hinzugefügt wird). Dies kann insbesondere bei Texten von z. B. Twitter der Fall sein, bei denen Wörter häufig falsch geschrieben werden.
Wie sollten solche unbekannten Wörter behandelt werden, wenn eine NLP-Aufgabe wie die Stimmungsvorhersage unter Verwendung eines Langzeitnetzwerks (LSTM) modelliert wird? Ich sehe zwei Möglichkeiten:
- Hinzufügen eines Tokens für ein unbekanntes Wort zum word2vec-Wörterbuch.
- Löschen Sie diese unbekannten Wörter so, dass der LSTM nicht einmal weiß, dass das Wort im Satz enthalten ist.
Was ist die bevorzugte Art, mit diesen Wörtern umzugehen?