Das Bild zeigt eine typische Ebene irgendwo in einem Feed-Forward-Netzwerk:

$a_i^{(k)}$ ist der Aktivierungswert des -Neurons in der -Schicht. $i^{th}$ $k^{th}$

$W_{ij}^{(k)}$ ist das Gewicht, das das $i^{th}$ Neuron in der $k^{th}$ Schicht mit dem $j^{th}$ Neuron in der $(k+1)^{th}$ Schicht verbindet.

$z_j^{(k+1)}$ ist der Wert der Voraktivierungsfunktion für das Neuron in der Schicht . Manchmal wird dies als "logit" bezeichnet, wenn es mit logistischen Funktionen verwendet wird. $j^{th}$ $(k+1)^{th}$

Die Feed-Forward-Gleichungen lauten wie folgt:

$z_j^{(k+1)} = \sum_i W_{ij}^{(k)}a_i^{(k)}$

$a_j^{(k+1)} = f(z_j^{(k+1)})$

Der Einfachheit halber wird die Vorspannung als Dummy-Aktivierung von 1 eingeschlossen und implizit in Iterationen über . $i$

Ich kann die Gleichungen für die Rückausbreitung in einem vorwärtsgerichteten neuronalen Netzwerk unter Verwendung der Kettenregel und der Identifizierung einzelner Skalarwerte im Netzwerk ableiten (tatsächlich mache ich dies oft als Papierübung nur zum Üben):

Gegeben als Gradient der Fehlerfunktion in Bezug auf eine Neuronenausgabe. $\nabla a_j^{(k+1)} = \frac{\partial E}{\partial a_j^{(k+1)}}$

1. $\nabla z_j^{(k+1)} = \frac{\partial E}{\partial z_j^{(k+1)}} = \frac{\partial E}{\partial a_j^{(k+1)}} \frac{\partial a_j^{(k+1)}}{\partial z_j^{(k+1)}} = \nabla a_j^{(k+1)} f'(z_j^{(k+1)})$

2. $\nabla a_i^{(k)} = \frac{\partial E}{\partial a_i^{(k)}} = \sum_j \frac{\partial E}{\partial z_j^{(k+1)}} \frac{\partial z_j^{(k+1)}}{\partial a_i^{(k)}} = \sum_j \nabla z_j^{(k+1)} W_{ij}^{(k)}$

3. $\nabla W_{ij}^{(k)} = \frac{\partial E}{\partial W_{ij}^{(k)}} = \frac{\partial E}{\partial z_j^{(k+1)}} \frac{\partial z_j^{(k+1)}}{\partial W_{ij}^{(k)}} = \nabla z_j^{(k+1)} a_{i}^{(k)}$

So weit, ist es gut. Es ist jedoch oft besser, diese Gleichungen unter Verwendung von Matrizen und Vektoren zur Darstellung der Elemente abzurufen. Ich kann das tun, aber ich bin nicht in der Lage, die "native" Darstellung der äquivalenten Logik in der Mitte der Ableitungen herauszufinden. Ich kann herausfinden, wie die Endformen aussehen sollten, indem ich auf die skalare Version zurückgreife und überprüfe, ob die Multiplikationen die richtigen Dimensionen haben, aber ich habe keine Ahnung, warum ich die Gleichungen in diese Formen einfügen soll.

Gibt es tatsächlich eine Möglichkeit, die tensorbasierte Ableitung der Rückausbreitung nur unter Verwendung von Vektor- und Matrixoperationen auszudrücken, oder geht es darum, sie an die obige Ableitung anzupassen?

Verwenden der Spaltenvektoren , , und der Gewichtsmatrix plus Bias-Vektor , dann sind die Feed-Forward-Operationen: $\mathbf{a}^{(k)}$ $\mathbf{z}^{(k+1)}$ $\mathbf{a}^{(k+1)}$ $\mathbf{W}^{(k)}$ $\mathbf{b}^{(k)}$

$\mathbf{z}^{(k+1)} = \mathbf{W}^{(k)}\mathbf{a}^{(k)} + \mathbf{b}^{(k)}$

$\mathbf{a}^{(k+1)} = f(\mathbf{z}^{(k+1)})$

Dann sieht mein Ableitungsversuch folgendermaßen aus:

1. $\nabla \mathbf{z}^{(k+1)} = \frac{\partial E}{\partial \mathbf{z}^{(k+1)}} = ??? = \nabla \mathbf{a}^{(k+1)} \odot f'(\mathbf{z}^{(k+1)})$

2. $\nabla \mathbf{a}^{(k)} = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = ??? = {\mathbf{W}^{(k)}}^{T} \nabla \mathbf{z}^{(k+1)}$

3. $\nabla \mathbf{W}^{(k)} = \frac{\partial E}{\partial \mathbf{W}^{(k)}} = ??? = \nabla\mathbf{z}^{(k+1)} {\mathbf{a}^{(k)}}^T$

Wobei die elementweise Multiplikation darstellt. Ich habe mich nicht darum gekümmert, eine Voreingenommenheitsgleichung zu zeigen. $\odot$

Wo habe ich hingelegt ??? Ich bin mir nicht sicher, wie ich von den Feed-Forward-Operationen und der Kenntnis der linearen Differentialgleichungen den richtigen Weg einschlagen soll, um die richtige Form der Gleichungen zu ermitteln. Ich könnte nur einige partielle abgeleitete Begriffe aufschreiben, habe aber keine Ahnung, warum einige eine elementweise Multiplikation verwenden sollten, andere eine Matrixmultiplikation, und warum die Multiplikationsreihenfolge wie gezeigt sein muss, außer dass dies am Ende eindeutig das richtige Ergebnis liefert .

Ich bin mir nicht einmal sicher, ob es eine reine Tensorableitung gibt oder ob es sich nur um eine "Vektorisierung" des ersten Satzes von Gleichungen handelt. Aber meine Algebra ist nicht so gut und ich bin daran interessiert, es auf jeden Fall herauszufinden. Ich denke, es könnte mir eine gute Verständnisarbeit in z. B. TensorFlow bringen, wenn ich diese Operationen besser verstehen würde, indem ich mehr mit Tensoralgebra denke.

Entschuldigung für Ad-hoc / falsche Notation. Ich verstehe jetzt, dass dank Ehsans Antwort besser geschrieben istWas ich wirklich wollte, ist eine kurze Referenzvariable, die im Gegensatz zu den ausführlichen partiellen Ableitungen in die Gleichungen eingesetzt werden kann. $\nabla a_j^{(k+1)}$ $\nabla_{a_j^{(k+1)}}E$

backpropagation theory linear-algebra

— Neil Slater
quelle

Um ehrlich zu sein, ist die Verwendung von Komponenten weitaus einfacher als die Verwendung der Matrix- / Vektorform der Gleichungen. Wenn Sie jedoch die Matrixform ableiten möchten, sollten Sie sich en.wikipedia.org/wiki/Matrix_calculus

— J. O'Brien Antognini vom

@ J.O'BrienAntognini: Ich denke, das ist es, was ich sehen möchte, ja. Wenn sich herausstellt, dass dies eine theoretische Untersuchung ist und nicht zu nützlich für das Verständnis der Routinearbeit mit TensorFlow usw. ist, dann denke ich, dass ich es immer noch interessant finden werde.

— Neil Slater

Notation ist wichtig! Das Problem beginnt bei:

Gegeben $\nabla a_j^{(k+1)} = \frac{\partial E}{\partial a_j^{(k+1)}}$

Ich mag deine Notation nicht! In der mathematischen Standardnotation ist das in der Tat falsch. Die richtige Notation ist

\nabla_{a_{j}^{(k + 1)}} E = \frac{\partial E}{\partial a_{j}^{(k + 1)}}

$\nabla_{a_j^{(k+1)}} E = \frac{\partial E}{\partial a_j^{(k+1)}}$

Dann wird der Gradient des Fehlers für einen Vektor definiert als $E$ ${\mathbf{a}^{(k)}}$

\nabla_{a^{(k)}} E = {(\frac{\partial E}{\partial a_{1}^{(k)}}, \dots, \frac{\partial E}{\partial a_{n}^{(k)}})}^{T} (⋆)

$\nabla_{\mathbf{a}^{(k)}} E = \left( \frac{\partial E}{\partial a_1^{(k)}} , \cdots, \frac{\partial E}{\partial a_n^{(k)}}\right)^T \;\;\;\; (\star)$

( Randnotiz : Wir transponieren aufgrund der Konvention, dass wir Vektoren als Spaltenvektoren darstellen. Wenn Sie als Zeilenvektoren darstellen möchten, ändern die Gleichungen, die Sie beweisen möchten, eine Transponierung!)

daher mit Kettenregel,

\frac{\partial E}{\partial a_{i}^{(k)}} = \sum_{j} \frac{\partial E}{\partial z_{j}^{(k + 1)}} \frac{\partial z_{j}^{(k + 1)}}{\partial a_{i}^{(k)}} = \sum_{j} \frac{\partial E}{\partial z_{j}^{(k + 1)}} W_{i j}^{(k)}

$\frac{\partial E}{\partial a_i^{(k)}}= \sum_j \frac{\partial E}{\partial z_j^{(k+1)}} \frac{\partial z_j^{(k+1)}}{\partial a_i^{(k)}}=\sum_j \frac{\partial E}{\partial z_j^{(k+1)}}W_{ij}^{(k)}$

wegenJetzt können Sie das Obige als Vektorprodukt (inneres Produkt) ausdrücken $z_j^{(k+1)} = \sum_i W_{ij}^{(k)}a_i^{(k)}.$

\frac{\partial E}{\partial a_{i}^{(k)}} = (W_{:, i}^{(k)})^{T} \nabla_{z^{(k + 1)}} E

$\frac{\partial E}{\partial a_i^{(k)}} = (W_{:,i}^{(k)})^T \nabla_{\mathbf{z}^{(k+1)}} E$ und wenn wir sie in stapeln wir als Matrixvektorprodukt ausdrücken

(⋆),

$(\star),$

\nabla_{a^{(k)}} E

$\nabla_{\mathbf{a}^{(k)}} E$

\nabla_{a^{(k)}} E = (W^{(k)})^{T} \nabla_{z^{(k + 1)}} E .

$\nabla_{\mathbf{a}^{(k)}} E = (\mathbf{W}^{(k)})^T\nabla_{\mathbf{z}^{(k+1)}} E.$

Den Rest überlasse ich dir :)

Mehr Vektorrechnung!

Verwenden wir die Konvention von Vektoren als Spaltenvektoren. Dann ist und $\mathbf{z}^{(k+1)} = (\mathbf{W}^{(k)})^T \mathbf{a}^{(k)} + \mathbf{b}^{(k)}$

\nabla_{a^{(k)}} E = \frac{\partial E}{\partial a^{(k)}} = \frac{\partial z^{(k + 1)}}{\partial a^{(k)}} \frac{\partial E}{\partial z^{(k + 1)}} = W^{(k)} \frac{\partial E}{\partial z^{(k + 1)}}

$\nabla_{\mathbf{a}^{(k)}} E = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = \frac{\partial \mathbf{z^{(k+1)}}}{\partial \mathbf{a}^{(k)}} \frac{\partial E}{\partial \mathbf{z}^{(k+1)}}= \mathbf{W}^{(k)} \frac{\partial E}{\partial \mathbf{z}^{(k+1)}}$

\frac{\partial z^{(k + 1)}}{\partial a^{(k)}} = \frac{\partial ((W^{(k)})^{T} a^{(k)} + b^{(k)})}{\partial a^{(k)}} = \frac{\partial ((W^{(k)})^{T} a^{(k)})}{\partial a^{(k)}} + \frac{\partial b^{(k)}}{\partial a^{(k)}}

$\frac{\partial \mathbf{z^{(k+1)}}}{\partial \mathbf{a}^{(k)}} = \dfrac{\partial\left((\mathbf{W}^{(k)})^T \mathbf{a}^{(k)} + \mathbf{b}^{(k)}\right)}{\partial \mathbf{a}^{(k)}}=\dfrac{\partial\left((\mathbf{W}^{(k)})^T \mathbf{a}^{(k)}\right)}{\partial \mathbf{a}^{(k)}} + \dfrac{\partial\mathbf{b}^{(k)}}{\partial \mathbf{a}^{(k)}}$

und da dies nicht tut hängen von $\dfrac{\partial\mathbf{b}^{(k)}}{\partial \mathbf{a}^{(k)}}=0$ $\mathbf{b}^{(k)}$ $\mathbf{a}^{(k)}.$

Somit

\frac{\partial ((W^{(k)})^{T} a^{(k)})}{\partial a^{(k)}} = \frac{\partial a^{(k)}}{\partial a^{(k)}} W^{(k)} = W^{(k)} .

$\dfrac{\partial\left((\mathbf{W}^{(k)})^T \mathbf{a}^{(k)}\right)}{\partial \mathbf{a}^{(k)}} = \dfrac{\partial \mathbf{a}^{(k)}}{\partial \mathbf{a}^{(k)}} \mathbf{W}^{(k)} = \mathbf{W}^{(k)}.$

nach Vektor für Vektor (acht bzw. siebte Zeile, letzte Spaltenidentität)

— Ehsan M. Kermani
quelle

@NeilSlater Ich habe mehr hinzugefügt. Ich hoffe es hilft jetzt.

— Ehsan M. Kermani

Vielen Dank. Der Link zu en.wikipedia.org/wiki/… ist für mich ein Schlüsselfaktor.

— Neil Slater

Ableiten von Backpropagation-Gleichungen "nativ" in Tensorform

1.∇z( k + 1 )=∂E.∂z( k + 1 )= ? ? ? = ∇ein( k + 1 )⊙f'(z( k + 1 ))∇z(k+1)=∂E.∂z(k+1)=???=∇ein(k+1)⊙f'(z(k+1))\nabla \mathbf{z}^{(k+1)} = \frac{\partial E}{\partial \mathbf{z}^{(k+1)}} = ??? = \nabla \mathbf{a}^{(k+1)} \odot f'(\mathbf{z}^{(k+1)})

2.∇ein( k )=∂E.∂ein( k )= ? ? ? =W.( k )T.∇z( k + 1 )∇ein(k)=∂E.∂ein(k)=???=W.(k)T.∇z(k+1)\nabla \mathbf{a}^{(k)} = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = ??? = {\mathbf{W}^{(k)}}^{T} \nabla \mathbf{z}^{(k+1)}

3.∇W.( k )=∂E.∂W.( k )= ? ? ? = ∇z( k + 1 )ein( k )T.∇W.(k)=∂E.∂W.(k)=???=∇z(k+1)ein(k)T.\nabla \mathbf{W}^{(k)} = \frac{\partial E}{\partial \mathbf{W}^{(k)}} = ??? = \nabla\mathbf{z}^{(k+1)} {\mathbf{a}^{(k)}}^T

Mehr Vektorrechnung!

1. $\nabla \mathbf{z}^{(k+1)} = \frac{\partial E}{\partial \mathbf{z}^{(k+1)}} = ??? = \nabla \mathbf{a}^{(k+1)} \odot f'(\mathbf{z}^{(k+1)})$

2. $\nabla \mathbf{a}^{(k)} = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = ??? = {\mathbf{W}^{(k)}}^{T} \nabla \mathbf{z}^{(k+1)}$

3. $\nabla \mathbf{W}^{(k)} = \frac{\partial E}{\partial \mathbf{W}^{(k)}} = ??? = \nabla\mathbf{z}^{(k+1)} {\mathbf{a}^{(k)}}^T$