Farbverläufe für das Skipgramm word2vec

Ich gehe die Probleme in den schriftlichen Aufgabenproblemen der Stanford NLP Deep Learning-Klasse durch http://cs224d.stanford.edu/assignment1/assignment1_soln

Ich versuche die Antwort für 3a zu verstehen, wo sie nach der Ableitung zum Vektor für das Mittelwort suchen.

Angenommen, Sie erhalten einen vorhergesagten Wortvektor , der dem Mittelwort c für das Sprunggramm entspricht, und die Wortvorhersage erfolgt mit der in word2vec-Modellen gefundenen Softmax-Funktion. $v_{c}$

$\hat{y}^{o} = p(o | c) = \frac {exp(u_{o}^{T} v_{c})}{\sum_{w=1}^{W}exp(u_{w}^{T} v_{c})}$

Wobei w das w-te Wort bezeichnet und (w = 1, ..., W) die "Ausgabe" -Wortvektoren für alle Wörter im Vokabular sind. Angenommen, auf diese Vorhersage werden Kreuzentropiekosten angewendet, und Wort o ist das erwartete Wort. $u_w$

Wo ist die Matrix aller Ausgangsvektoren, und läßt der Spaltenvektor der softmax Vorhersage von Worten sein, und y das one-hot - Label sein , die ist auch ein Spaltenvektor. $U = [u_1,u_2, · · · ,u_W ]$ $\hat{y}$

Wo Kreuzentropie ist $CE(y, \hat{y}) = − \sum_iy_i\log(\hat{y}_i)$

Die Antwort für den Gradienten für den Mittelvektor lautet also $\frac{∂J}{∂v_c}= U^T(\hat{y} − y).$

Könnte mir jemand die Schritte zeigen, um dorthin zu gelangen? Ich habe mit dieser Frage als Referenz Derivative von Kreuzentropie Verlust in word2vec aber ich mag speziell das weiß Darstellung. $U^T(\hat{y} − y).$

— Jake Fund
quelle

Lassen Sie uns zunächst darlegen, was wir haben und welche Annahmen wir über die Formen verschiedener Vektoren treffen. Lassen,

$|W|$ sei die Anzahl der Wörter im Vokabular
$y$ und werden Spaltenvektoren der Formx 1 $\hat{y}$ $|W|$
$u_i$ und $v_j$ sind die Spaltenvektoren der Form $D$ X 1 ( $D$ = Dimension der Einbettungen)
$y$ ist der One-Hot-codierte Spaltenvektor der Form $|W|$ x 1
$\hat{y}$ ist die Prädiktion softmax Spaltenvektor der Form $|W|$ x 1
$\hat{y}_i = P(i|c) = \frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)}$
$J = -\sum_{i=1}^Wy_ilog({\hat{y_i}})$
$U = [u_1, u_2, ...,u_k, ...u_W]$ $u_k$

J = - \sum_{i = 1}^{W} y_{i} l o g (\frac{e x p (u_{i}^{T} v_{c})}{\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c})})

$J = - \sum_{i=1}^W y_i log(\frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)})$

J = - \sum_{i = 1}^{W} y_{i} [u_{i}^{T} v_{c} - l o g (\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}))]

$J = - \sum_{i=1}^Wy_i[u_i^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$

y

$y$

k^{t h}

$k^{th}$

y_{k}

$y_k$

J = - y_{k} [u_{k}^{T} v_{c} - l o g (\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}))]

$J = -y_k[u_k^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$

y_{k}

$y_k$

$\frac{\partial J}{\partial v_c}$

\frac{\partial J}{\partial v_{c}} = - [u_{k} - \frac{\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}) u_{w}}{\sum_{x = 1}^{W} e x p (u_{x}^{T} v_{c})}]

$\frac{\partial J}{\partial v_c} = -[u_k - \frac{\sum_{w=1}^Wexp(u_w^Tv_c)u_w}{\sum_{x=1}^Wexp(u_x^Tv_c)}]$

\frac{\partial J}{\partial v_{c}} = \sum_{w = 1}^{W} (\frac{e x p (u_{w}^{T} v_{c})}{\sum_{x = 1}^{W} e x p (u_{x}^{T} v_{c})} u_{w}) - u_{k}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\frac{exp(u_w^Tv_c)}{\sum_{x=1}^W exp(u_x^Tv_c)}u_w) - u_k$

\frac{\partial J}{\partial v_{c}} = \sum_{w = 1}^{W} ({\hat{y}}_{w} u_{w}) - u_{k}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\hat{y}_w u_w) - u_k$

Nun wollen wir sehen, wie dies in Matrix-Notation geschrieben werden kann. Beachten Sie Folgendes:

$u_k$ $U.y$
$\sum_{w=1}^W (\hat{y}_w u_w)$ $u_w$ $U$ $\hat{y}_w$ $U.\hat{y}$

U [\hat{y} - y]

$U[\hat{y} -y]$

$u_i$ $U^T[\hat{y} -y]$

— Sachin Tyagi
quelle

Ich wollte nur sagen, dass dies eine wunderbare Erklärung für die Ableitung ist! Es hilft wirklich für Mathe-Trottel wie mich. Vielen Dank!

— Eric Kim

+1 für die erstaunliche Erklärung!

— Bragboy

\frac{\partial}{\partial B} A^{T} B = A

$\frac{\partial}{\partial B} A^TB = A$