Ich frage mich, warum hierarchisches Softmax bei seltenen Wörtern besser ist, während negatives Sampling bei häufigen Wörtern bei den CBOW- und Skip-Gram-Modellen von word2vec besser ist. Ich habe die Behauptung unter https://code.google.com/p/word2vec/ gelesen .