Ich gehe die Probleme in den schriftlichen Aufgabenproblemen der Stanford NLP Deep Learning-Klasse durch http://cs224d.stanford.edu/assignment1/assignment1_soln
Ich versuche die Antwort für 3a zu verstehen, wo sie nach der Ableitung zum Vektor für das Mittelwort suchen.
Angenommen, Sie erhalten einen vorhergesagten Wortvektor , der dem Mittelwort c für das Sprunggramm entspricht, und die Wortvorhersage erfolgt mit der in word2vec-Modellen gefundenen Softmax-Funktion.
Wobei w das w-te Wort bezeichnet und (w = 1, ..., W) die "Ausgabe" -Wortvektoren für alle Wörter im Vokabular sind. Angenommen, auf diese Vorhersage werden Kreuzentropiekosten angewendet, und Wort o ist das erwartete Wort.
Wo ist die Matrix aller Ausgangsvektoren, und läßt y der Spaltenvektor der softmax Vorhersage von Worten sein, und y das one-hot - Label sein , die ist auch ein Spaltenvektor.
Wo Kreuzentropie ist
Die Antwort für den Gradienten für den Mittelvektor lautet also
Könnte mir jemand die Schritte zeigen, um dorthin zu gelangen? Ich habe mit dieser Frage als Referenz Derivative von Kreuzentropie Verlust in word2vec aber ich mag speziell das weiß Darstellung.