Warum ist hierarchisches Softmax besser für seltene Wörter, während negatives Sampling für häufige Wörter besser ist?

12

Ich frage mich, warum hierarchisches Softmax bei seltenen Wörtern besser ist, während negatives Sampling bei häufigen Wörtern bei den CBOW- und Skip-Gram-Modellen von word2vec besser ist. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen .

— Franck Dernoncourt
quelle

10

Ich bin kein Experte für word2vec, aber beim Lesen von Rong, X. (2014). word2vec Parameter Learning Erklärt und aus meiner eigenen Erfahrung mit NN, würde ich die Argumentation dazu vereinfachen:

$O(log(N))$ $O(N)$ . Dies erweitert die Gewichte im Wesentlichen, um ein großes Vokabular zu unterstützen - ein bestimmtes Wort steht in Beziehung zu weniger Neuronen und umgekehrt.
Negative Abtastung ist eine Möglichkeit, die Trainingsdaten abzutasten, ähnlich wie bei der stochastischen Gradientenabnahme. Der Schlüssel ist jedoch, dass Sie nach negativen Trainingsbeispielen suchen. Intuitiv trainiert es anhand von Stichprobenorten, an denen es möglicherweise ein Wort erwartet, aber kein Wort gefunden hat. Dies ist schneller als das Training eines gesamten Korpus bei jeder Iteration und macht Sinn für gebräuchliche Wörter.

Die beiden Methoden scheinen theoretisch nicht exklusiv zu sein, aber das scheint auch der Grund zu sein, warum sie besser für häufige und seltene Wörter sind.

— Andrew Charneski
quelle

1

Meines Wissens liegt dies an der Huffman-Codierung, die beim Erstellen der Kategoriehierarchie verwendet wird.

Hierarchisches Softmax verwendet einen Baum von Sigmoidknoten anstelle eines großen Softmax. Die Huffman-Codierung stellt sicher, dass die Verteilung der Datenpunkte, die zu jeder Seite eines Sigmoidknotens gehören, ausgeglichen ist. Daher hilft es, die Bevorzugung häufiger Kategorien im Vergleich zur Verwendung eines großen Softmax und einer negativen Abtastung zu beseitigen.

— dontloo
quelle

0

Hierarchical Softmax bildet einen Baum über das gesamte Vokabular, und die Blattknoten, die seltene Wörter darstellen, erben unweigerlich die Vektordarstellungen ihrer Vorfahren im Baum, die durch andere häufige Wörter im Korpus beeinflusst werden können. Dies kommt dem inkrementellen Training für neue Korpus zugute.

Die negative Abtastung basiert auf einer kontrastiven Rauschschätzung und tastet die Wörter, die nicht im Zusammenhang stehen, zufällig ab, um die beobachteten Daten von dem künstlich erzeugten zufälligen Rauschen zu unterscheiden.

— Amey Yadav
quelle