Derivat von Softmax in Bezug auf Gewichte

Ich bin neu im Deep Learning und versuche, die Ableitung der folgenden Funktion in Bezug auf die Matrix zu berechnen : $\mathbf w$

p (a) = \frac{e^{w_{a}^{⊤} x}}{Σ_{d} e^{w_{d}^{⊤} x}}

$p(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}}$

Unter Verwendung der Quotientenregel erhalte ich:

\frac{\partial p (a)}{\partial w} = \frac{x e^{w_{a}^{⊤} x} Σ_{d} e^{w_{d}^{⊤} x} - e^{w_{a}^{⊤} x} Σ_{d} x e^{w_{d}^{⊤} x}}{[Σ_{d} e^{w_{d}^{⊤} x}]^{2}} = 0

$\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = 0$

Ich glaube, ich mache etwas falsch, da die Softmax-Funktion üblicherweise als Aktivierungsfunktion beim Deep Learning verwendet wird (und daher nicht immer eine Ableitung von ). Ich habe ähnliche Fragen durchgesehen , aber sie scheinen diesen Teil der Berechnung zu beschönigen. $0$

Ich würde mich über Hinweise in die richtige Richtung freuen.

— 李成震
quelle

Ihre Notation funktioniert nicht wirklich, vielleicht weil Sie nicht erklärt haben, was " " ist oder wie die Dimensionen von könnten. Das scheint der Kern Ihres Problems zu sein, denn Sie scheinen als Zahl zu behandeln , aber das macht keinen Sinn.

x

$x$

w

$\mathbf{w}$

x

$x$

— whuber

Die letzte verborgene Ebene erzeugt Ausgabewerte, die einen Vektor . Die ausgegebene neuronale Schicht soll unter Kategorien mit einer SoftMax-Aktivierungsfunktion klassifizieren , die jeder der Kategorien bedingte Wahrscheinlichkeiten (gegeben ) zuweist . In jedem Knoten in der letzten (oder Ausgabe-) Ebene bestehen die voraktivierten Werte (Logit-Werte) aus den Skalarprodukten , wobei . Mit anderen Worten, jede Kategorie, $\vec x = \mathbf x$ $K=1,\dots,k$ $\mathbf x$ $K$ $\mathbf{w}_j^\top\mathbf{x}$ $\mathbf w_j\in\{\mathbf{w}_1, \mathbf{w}_2,\dots,\mathbf{w}_k\}$ $k$ Es wird ein anderer Vektor von Gewichten darauf zeigen, der den Beitrag jedes Elements in der Ausgabe der vorherigen Ebene (einschließlich einer Vorspannung) bestimmt, eingekapselt in . Die Aktivierung dieser letzten Schicht erfolgt jedoch nicht elementweise (wie zum Beispiel mit einer Sigmoidfunktion in jedem Neuron), sondern durch die Anwendung einer SoftMax-Funktion, die einen Vektor in auf abbildet ein Vektor von Elementen in [0,1]. Hier ist eine erfundene NN zur Klassifizierung von Farben: $\mathbf x$ $\mathbb R^k$ $K$

Softmax definieren als

σ (j) = \frac{\exp (w_{j}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} = \frac{\exp (z_{j})}{\sum_{k = 1}^{K} \exp (z_{k})}

$\sigma(j)=\frac{\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)}=\frac{\exp(z_j)}{\sum_{k=1}^K \exp(z_k)}$

Wir wollen die partielle Ableitung in Bezug auf einen Vektor von Gewichten , aber wir können zuerst die Ableitung von in Bezug auf das Logit erhalten, dh : $(\mathbf w_i)$ $\sigma(j)$ $z_i = \mathbf w_i^\top \cdot \mathbf x$

\begin{aligned} \frac{\partial}{\partial (w_{i}^{⊤} x)} σ (j) & = \frac{\partial}{\partial (w_{i}^{⊤} x)} \frac{\exp (w_{j}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} \\ \underset{*}{=} \frac{\frac{\partial}{\partial (w_{i} ⊤ x)} \exp (w_{j}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} - \frac{\exp (w_{j}^{⊤} x)}{{(\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x))}^{2}} \frac{\partial}{\partial (w_{i}^{⊤} x)} \sum_{k = 1}^{K} \exp (w_{k}^{⊤} x) \\ = \frac{δ_{i j} \exp (w_{j}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} - \frac{\exp (w_{j}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} \frac{\exp (w_{i}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} \\ = σ (j) (δ_{i j} - σ (i)) \end{aligned}

$\begin{align} \small{\frac{\partial}{\partial( \mathbf{w}_i^\top \mathbf x)}}\sigma(j) &= \small{\frac{\partial}{\partial \left(\mathbf{w}_i^\top \mathbf x\right)}}\;\frac{\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)} \\[2ex] &\underset{*}{=} \frac{\frac{\partial}{\partial (\mathbf{w_i\top \mathbf x)}}\,\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)}\,-\,\frac{\exp(\mathbf w_j^\top \mathbf x)}{\left(\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x) \right)^2}\quad\small{{\frac{\partial}{\partial \left(\mathbf w_i^\top\mathbf x\right)}}}\,\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)\\[2ex] &= \frac{\delta_{ij}\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)}\,-\,\frac{\exp(\mathbf w_j^\top \mathbf x)}{ \sum_{k=1}^K \exp\left(\mathbf{w}_k^\top\mathbf x \right)} \frac{\exp(\mathbf{w}_i^\top\mathbf x)}{\sum_{k=1}^K \exp\left(\mathbf{w}_k^\top\mathbf x \right)} \\[3ex] &=\sigma(j)\left(\delta_{ij}-\sigma(i)\right) \end{align}$

$* \text{- quotient rule}$

Vielen Dank und (+1) an Yuntai Kyong für den Hinweis, dass in der vorherigen Version des Beitrags ein vergessener Index vorhanden war und die Änderungen im Nenner des Softmax in der folgenden Kettenregel nicht berücksichtigt wurden ...

Nach der Kettenregel

\begin{aligned} \frac{\partial}{\partial w_{i}} σ (j) & = \sum_{k = 1}^{K} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) \frac{\partial}{\partial w_{i}} w_{k}^{⊤} x \\ = \sum_{k = 1}^{K} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) δ_{i k} x \\ = \sum_{k = 1}^{K} σ (j) (δ_{k j} - σ (k)) δ_{i k} x \end{aligned}

$\begin{align}\frac{\partial}{\partial \mathbf{w}_i}\sigma(j)&= \sum_{k = 1}^K \frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\sigma(j)\quad \frac{\partial}{\partial\mathbf{w}_i}\mathbf{w}_k^\top \mathbf{x}\\[2ex] &=\sum_{k = 1}^K \frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\;\sigma(j)\quad \delta_{ik} \mathbf{x}\\[2ex] &=\sum_{k = 1}^K\sigma(j)\left(\delta_{kj}-\sigma(k)\right)\quad \delta_{ik} \mathbf{x} \end{align}$

Kombinieren Sie dieses Ergebnis mit der vorherigen Gleichung:

\frac{\partial}{\partial w_{i}} σ (j) = σ (j) (δ_{i j} - σ (i)) x

$\bbox[8px, border: 2px solid lime]{\frac{\partial}{\partial \mathbf{w}_i}\sigma(j)=\sigma(j)\left(\delta_{ij}-\sigma(i)\right)\mathbf x}$

— Antoni Parellada
quelle

1. Schöne Figur, aber die Erklärung ist verwirrend. "Die letzte verborgene Schicht erzeugt Ausgabewerte, die einen Vektor x⃗ = x bilden." Aber x eher die Eingabe als die Ausgabe? 2. "Die Aktivierung dieser letzten Ebene erfolgt nicht elementweise": Dies ist nützlich, aber einige Einblicke in die Verwendung der Exponentialfunktion sind hilfreich.

— coder.in.me

Ich habe ein anderes Ergebnis. Außerdem hängt von im Nenner des Softmax ab, sodass nicht sicher ist, ob Antonis Ergebnis korrekt ist. $\sigma(j)$ $\mathbf{w}_i$

\begin{aligned} \frac{\partial}{\partial w_{i}} σ (j) & = \sum_{k} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) \frac{\partial}{\partial w_{i}} w_{k}^{⊤} x \\ = \sum_{k} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) δ_{i k} x \\ = \sum_{k} σ (j) (δ_{j k} - σ (k)) δ_{i k} x \\ = σ (j) (δ_{i j} - σ (i)) x \end{aligned}

$\begin{align}\frac{\partial}{\partial \mathbf{w}_i}\sigma(j)&= \sum_k\frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\;\sigma(j)\; \frac{\partial}{\partial\mathbf{w}_i}\mathbf{w}_k^\top \mathbf{x}\\[2ex] &= \sum_k \frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\;\sigma(j)\; \delta_{ik} \mathbf{x}\\[2ex] &= \sum_k \sigma(j)\left(\delta_{jk}-\sigma(k)\right)\delta_{ik} \mathbf{x}\\[2ex] &= \sigma(j)\left(\delta_{ij}-\sigma(i)\right) \mathbf{x} \end{align}$

— Yuntai Kyong
quelle