Was ist der Operator in der Kettenregel, wenn der Gradient eines einschichtigen neuronalen Netzwerks anhand seiner Eingaben abgeleitet wird?

Das Problem ist:

Leiten Sie den Gradienten in Bezug auf die Eingabeschicht für ein einzelnes neuronales Netzwerk mit versteckter Schicht ab, indem Sie Sigmoid für Eingabe -> versteckt, Softmax für versteckt -> Ausgabe mit einem Kreuzentropieverlust verwenden.

Ich kann den größten Teil der Ableitung mit der Kettenregel durchstehen, bin mir aber nicht sicher, wie ich sie tatsächlich "verketten" soll.

Definieren Sie einige Notationen

$r = xW_1+b_1$

$h = \sigma\left( r \right)$ , $\sigma$ ist die Sigmoidfunktion

$\theta = hW_2+b_2$ ,

$\hat{y} = S \left( \theta \right)$ , $S$ ist softmax Funktion

$J\left(\hat{y}\right) = \sum_i y \log\hat{y}_i$ , $y$ reale Etikett one-hotVektor ist

Dann durch die Kettenregel,

\frac{\partial J}{\partial x} = \frac{\partial J}{\partial θ} \cdot \frac{\partial θ}{\partial h} \cdot \frac{\partial h}{\partial r} \cdot \frac{\partial r}{\partial x}

$\frac{\partial J}{\partial \boldsymbol{x}} = \frac{\partial J}{\partial \boldsymbol{\theta}} \cdot \frac{\partial \boldsymbol{\theta}}{\partial \boldsymbol{h}} \cdot \frac{\partial \boldsymbol{h}}{\partial \boldsymbol{r}} \cdot \frac{\partial \boldsymbol{r}}{\partial \boldsymbol{x}}$

Einzelne Farbverläufe sind:

\frac{\partial J}{\partial θ} = (\hat{y} - y)

$\frac{\partial J}{\partial \boldsymbol{\theta}} = \left( \hat{\boldsymbol{y}} - \boldsymbol{y} \right)$

\frac{\partial θ}{\partial h} = \frac{\partial}{\partial h} [h W_{2} + b_{2}] = W_{2}^{T}

$\frac{\partial \boldsymbol{\theta}}{\partial \boldsymbol{h}} = \frac{\partial}{\partial \boldsymbol{h}} \left[ \boldsymbol{h}W_2 + \boldsymbol{b_2}\right] = W_2^T$

\frac{\partial h}{\partial r} = h \cdot (1 - h)

$\frac{\partial \boldsymbol{h}}{\partial \boldsymbol{r}} = h \cdot \left(1-h\right)$

\frac{\partial r}{\partial x} = \frac{\partial}{\partial x} [x W_{1} + b_{1}] = W_{1}^{T}

$\frac{\partial \boldsymbol{r}}{\partial \boldsymbol{x}} = \frac{\partial}{\partial \boldsymbol{x}} \left[ \boldsymbol{x}W_1 + \boldsymbol{b_1}\right] = W_1^T$

Jetzt müssen wir die Definitionen miteinander verketten. Bei Einzelvariablen ist dies einfach, wir multiplizieren einfach alles miteinander. Bei Vektoren bin ich mir nicht sicher, ob ich eine elementweise Multiplikation oder eine Matrixmultiplikation verwenden soll.

\frac{\partial J}{\partial x} = (\hat{y} - y) * W_{2}^{T} \cdot [h \cdot (1 - h)] * W_{1}^{T}

$\frac{\partial J}{\partial \boldsymbol{x}} = \left( \hat{\boldsymbol{y}} - \boldsymbol{y} \right) * W_2^T \cdot \left[\boldsymbol{h} \cdot \left(1-\boldsymbol{h}\right)\right] * W_1^T$

Wobei eine elementweise Multiplikation von Vektoren ist und eine Matrixmultiplikation ist. Diese Kombination von Operationen ist die einzige Möglichkeit, diese miteinander zu verbinden, um einen Dimensionsvektor zu erhalten, von dem ich weiß, dass muss. $\cdot$ $*$ $1 \cdot D_x$ $\frac{\partial J}{\partial \boldsymbol{x}}$

Meine Frage ist: Wie kann ich grundsätzlich herausfinden, welchen Operator ich verwenden soll? Ich bin besonders verwirrt über die Notwendigkeit des elementweisen zwischen und . $W_2^T$ $h$

Vielen Dank!

neural-networks gradient

— Amatsukawa
quelle

Mir ist klar, dass es nicht oft vorkommt, den Gradienten für die Eingänge zu finden. Ich glaube, dies ist ein Anhaltspunkt für die Berechnung von Worteinbettungen, bei denen Sie die Option haben, die "Eingabe" -Wortvektoren zu optimieren.

— Amatsukawa

Wie hast du derjie dJ / dTheta

— raaj

Antworten:

Ich glaube, dass der Schlüssel zur Beantwortung dieser Frage darin besteht, darauf hinzuweisen, dass die elementweise Multiplikation tatsächlich eine Abkürzung ist. Wenn Sie also die Gleichungen ableiten, verwenden Sie sie nie wirklich.

Der eigentliche Betrieb ist kein Element weise Multiplikation , sondern eine Standard - Matrix - Multiplikation eines Gradienten mit einem Jacobi , immer .

Im Fall der Nichtlinearität ist der Jacobi der Vektorausgabe der Nichtlinearität in Bezug auf die Vektoreingabe der Nichtlinearität zufällig eine Diagonalmatrix. Es ist daher wahr, dass der mit dieser Matrix multiplizierte Gradient dem Gradienten der Ausgabe der Nichtlinearität in Bezug auf den Verlust entspricht, multipliziert mit einem Vektor, der alle partiellen Ableitungen der Nichtlinearität in Bezug auf die Eingabe der Nichtlinearität enthält. dies folgt jedoch aus der Diagonale des Jakobianers. Sie müssen den jakobianischen Schritt durchlaufen, um zur elementweisen Multiplikation zu gelangen, die Ihre Verwirrung erklären könnte.

In der Mathematik haben wir einige Nichtlinearitäten , einen Verlust und eine Eingabe für die Nichtlinearität (dies kann ein beliebiger Tensor sein). Die Ausgabe der Nichtlinearität hat die gleiche Dimension --- wie @Logan sagt, werden die Aktivierungsfunktionen als elementweise definiert. $s$ $L$ $x \in \mathbb{R}^{n \times 1}$ $s(x) \in \mathbb{R}^{n \times 1}$

Wir wollen

\nabla_{x} L = {(\frac{\partial s (x)}{\partial x})}^{T} \nabla_{s (x)} L

$\nabla_{x}L=\left({\dfrac{\partial s(x)}{\partial x}}\right)^T\nabla_{s(x)}L$

Wobei der Jacobi von . Wenn wir diesen Jacobian erweitern, erhalten wir $\dfrac{\partial s(x)}{\partial x}$ $s$

[\begin{matrix} \frac{\partial s (x_{1})}{\partial x_{1}} & \dots & \frac{\partial s (x_{1})}{\partial x_{n}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial s (x_{n})}{x_{1}} & \dots & \frac{\partial s (x_{n})}{\partial x_{n}} \end{matrix}]

$\begin{bmatrix} \dfrac{\partial{s(x_{1})}}{\partial{x_1}} & \dots & \dfrac{\partial{s(x_{1})}}{\partial{x_{n}}} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial{s(x_{n})}}{x_{1}} & \dots & \dfrac{\partial{s(x_{n})}}{\partial{x_{n}}} \end{bmatrix}$

Wir sehen, dass es bis auf die Diagonale überall Null ist. Wir können einen Vektor aller seiner diagonalen Elemente

D i a g (\frac{\partial s (x)}{\partial x})

$Diag\left(\dfrac{\partial s(x)}{\partial x}\right)$

Verwenden Sie dann den elementweisen Operator.

\nabla_{x} L = {(\frac{\partial s (x)}{\partial x})}^{T} \nabla_{s (x)} L = D i a g (\frac{\partial s (x)}{\partial x}) \circ \nabla_{s (x)} L

$\nabla_{x}L =\left({\dfrac{\partial s(x)}{\partial x}}\right)^T\nabla_{s(x)}L =Diag\left(\dfrac{\partial s(x)}{\partial x}\right) \circ \nabla_{s(x)}L$

— user0
quelle

Immer wenn sie zu einer Aktivierungsfunktion zurückproportional sind, werden die Operationen elementweise. In Ihrem Beispiel ist ein und ist ein Aktivierungsderivat, und ihr Produkt ist elementweises Produkt . Dies liegt daran, dass Aktivierungsfunktionen als elementweise Operationen im neuronalen Netzwerk definiert sind. $\delta_2 =(\hat{y}-y)W_2^T$ $a' = h \circ (1 -h)$ $\delta_2 \circ a'$

Siehe die cs224d- Vorlesungsfolien auf Seite 30, es könnte auch hilfreich sein.

— Logan
quelle