Ich frage mich, warum Überspringen-Gramm für seltene Wörter besser ist als CBOW in word2vec. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen .
Ich frage mich, warum Überspringen-Gramm für seltene Wörter besser ist als CBOW in word2vec. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen .
Antworten:
In CBOW werden die Vektoren aus den Kontextwörtern gemittelt, bevor das Zentralwort vorhergesagt wird. Im Sprung-Gramm gibt es keine Mittelung der Einbettungsvektoren. Es scheint, dass das Modell bessere Darstellungen für die seltenen Wörter lernen kann, wenn deren Vektoren nicht mit den anderen Kontextwörtern gemittelt werden, während die Vorhersagen gemacht werden.
Hier ist mein stark vereinfachtes und eher naives Verständnis des Unterschieds:
Wie wir wissen, lernt CBOW , das Wort anhand des Kontexts vorherzusagen. Oder maximieren Sie die Wahrscheinlichkeit des Zielworts, indem Sie den Kontext betrachten. Und dies ist zufällig ein Problem für seltene Wörter. Wenn Sie beispielsweise den Kontext des yesterday was really [...] day
CBOW-Modells betrachten, werden Sie feststellen, dass das Wort höchstwahrscheinlich beautiful
oder ist nice
. Wörter wie delightful
erhalten viel weniger Aufmerksamkeit für das Modell, da es so konzipiert ist, dass es das wahrscheinlichste Wort vorhersagt. Seltene Wörter werden über viele Beispiele mit häufigeren Wörtern geglättet.
Andererseits soll das Überspringen-Gramm den Kontext vorhersagen. Angesichts des Wortes delightful
muss es es verstehen und uns sagen, dass es eine große Wahrscheinlichkeit gibt, der Kontext ist yesterday was really [...] day
oder ein anderer relevanter Kontext. Mit Skip-Gramdelightful
versucht das Wort nicht, mit dem Wort zu konkurrieren, beautiful
sondern delightful+context
Paare werden als neue Beobachtungen behandelt. Aus diesem Grund benötigt Skip-Gram mehr Daten, um auch seltene Wörter verstehen zu können.
Ich bin gerade auf ein Papier gestoßen, das das Gegenteil zeigt: CBOW ist besser für seltene Wörter als Skip-Gram https://arxiv.org/abs/1609.08293 . Ich frage mich, woher die angegebenen Angaben auf https://code.google.com/p/word2vec/ stammen .