Ich habe das Standard- / berühmte word2vec- Modell gelesen und gemäß den Standardnotizen für cs224n ändert sich die Zielfunktion von:
zu:
oder
Ich habe mich gefragt, woher die zweite Zielfunktion kommt. Woher kommt die negative Stichprobe? Ich benötige keinen rigurischen Beweis / Ableitung, aber jede Art von Rechtfertigung wäre nett. Wow, nähert sich der zweite dem ersten an? In irgendeinem Sinne? Grob, ungefähr, intuitiv, gibt es irgendetwas, das dies rechtfertigt?
Hinweis Ich verstehe, dass es einen Geschwindigkeitsgewinn gibt. Ich bin mehr daran interessiert zu verstehen, was der Denkprozess gewesen sein könnte, um das Obige abzuleiten, während ich immer noch ungefähr die ursprüngliche Funktion optimieren oder gute Worteinbettungen haben möchte.
Meine eigenen Gedanken:
Lassen sei die Wahrscheinlichkeit, dass ein gegebenes Paar Wort und Kontext kamen aus den Korpusdaten. Erwägen(dh lassen Sie uns Dinge als Maximierung der Wahrscheinlichkeiten betrachten). Es scheint, dass das Maximieren des ersten Terms zwei Wortvektoren korrekt ausgibt, die seitdem korreliert sind, um zu machen groß kann man den ersten Term groß machen, indem man den ersten Term nahe an 1 macht, was erreicht werden kann, indem man das innere Produkt der Vektoren groß macht.
Es scheint mir jedoch, dass der zweite Begriff uns tatsächlich motiviert, schlechte Wortdarstellungen zurückzugewinnen . Schauen wir uns an, was der zweite Begriff ist:
wir können den obigen Begriff erhöhen, indem wir machen groß, was bedeutet, dass wir machen klein (nahe Null "Wahrscheinlichkeit"). Dies bedeutet, dass wir ein sehr negatives Argument für das Sigmoid wollen. Was bedeutet, dass wir Vektoren erhalten, die ein großes negatives inneres Produkt haben. Das scheint mir irgendwie falsch zu sein, denn wenn das innere Produkt Null wäre, dh die Wörter senkrecht wären, wäre das ein besseres Ziel. Warum haben sie stattdessen den anderen gewählt? Wären senkrechte Wörter nicht besser? dh wenn die Wörter nicht ähnlich und somit nicht korreliert sind, haben sie nichts miteinander zu tun und haben somit kein inneres Produkt.
Warum ist ein negatives inneres Produkt im Wesentlichen ein besseres Gefühl der Wortähnlichkeit als ein inneres Produkt, das Null ist?