Wie berechne ich den Delta-Term einer Faltungsschicht unter Berücksichtigung der Delta-Terme und Gewichte der vorherigen Faltungsschicht?

Ich versuche, ein künstliches neuronales Netzwerk mit zwei Faltungsschichten (c1, c2) und zwei verborgenen Schichten (c1, c2) zu trainieren. Ich verwende den Standard-Backpropagation-Ansatz. Im Rückwärtsdurchlauf berechne ich den Fehlerterm einer Schicht (Delta) basierend auf dem Fehler der vorherigen Schicht, den Gewichten der vorherigen Schicht und dem Gradienten der Aktivierung in Bezug auf die Aktivierungsfunktion der aktuellen Schicht. Genauer gesagt sieht das Delta der Schicht l folgendermaßen aus:

delta(l) = (w(l+1)' * delta(l+1)) * grad_f_a(l)

Ich kann den Gradienten von c2 berechnen, der sich zu einer regulären Ebene verbindet. Ich multipliziere einfach die Gewichte von h1 mit seinem Delta. Dann forme ich diese Matrix in die Form der Ausgabe von c2 um, multipliziere sie mit dem Gradienten der Aktivierungsfunktion und bin fertig.

Jetzt habe ich den Delta-Term von c2 - Dies ist eine 4D-Matrix der Größe (featureMapSize, featureMapSize, filterNum, patternNum). Außerdem habe ich die Gewichte von c2, die eine 3D-Matrix der Größe sind (filterSize, filterSize, filterNum).

Mit diesen beiden Termen und dem Gradienten der Aktivierung von c1 möchte ich das Delta von c1 berechnen.

Um es kurz zu machen:

Wie berechne ich angesichts des Delta-Terms einer vorherigen Faltungsschicht und der Gewichte dieser Schicht den Delta-Term einer Faltungsschicht?

— cdwoelk
quelle

Ich leite zunächst der Einfachheit halber den Fehler für eine Faltungsschicht unten für ein eindimensionales Array (Eingabe) ab, das dann leicht auf ein mehrdimensionales Array übertragen werden kann:

Wir nehmen hier an, dass die der Länge die Eingaben der ten Konv. Sind. Schicht, ist die Kerngröße der Gewichte die jedes Gewicht mit und die Ausgabe ist . Daher können wir schreiben (beachten Sie die Summation von Null): wobei $y^{l-1}$ $N$ $l-1$ $m$ $w$ $w_i$ $x^l$

x_{ich}^{l} = \sum_{ein = 0}^{m - - 1} w_{ein} y_{ein + ich}^{l - - 1}

$x_i^l = \sum\limits_{a=0}^{m-1} w_a y_{a+i}^{l-1}$

und

die Aktivierungsfunktion (zB sigmoidal). Damit können wir nun einige Fehlerfunktionen

und die Fehlerfunktion auf der Faltungsschicht (die Ihrer vorherigen Schicht) betrachten, die durch

. Wir wollen nun die Abhängigkeit des Fehlers in einer der Gewichte der vorherigen Schicht (en) herausfinden:

y_{i}^{l} = f (x_{i}^{l})

$y_i^l = f(x_i^l)$

f

$f$

E

$E$

\partial E / \partial y_{i}^{l}

$\partial E / \partial y_i^l$

wobei wir die Summe über alle Ausdrücke haben, in denen

vorkommt, die

. Beachten Sie auch, dass wir wissen, dass der letzte Term aus der Tatsache

, dass

\frac{\partial E.}{\partial w_{ein}} = \sum_{ein = 0}^{N. - - m} \frac{\partial E.}{\partial x_{ich}^{l}} \frac{\partial x_{ich}^{l}}{\partial w_{ein}} = \sum_{ein = 0}^{N. - - m} \frac{\partial E.}{\partial w_{ein}} y_{ich + ein}^{l - - 1}

$\begin{equation} \frac{\partial E}{\partial w_a} = \sum\limits_{a=0}^{N-m} \frac{\partial E}{\partial x_i^l} \frac{\partial x_i^l}{\partial w_a} = \sum\limits_{a=0}^{N-m}\frac{\partial E}{\partial w_a} y_{i+a}^{l-1} \end{equation}$

w_{a}

$w_a$

N - m

$N-m$

was Sie aus der ersten Gleichung sehen können. Um den Gradienten zu berechnen, müssen wir den ersten Term kennen, der berechnet werden kann durch:

\frac{\partial x_{i}^{l}}{\partial w_{a}} = y_{i + a}^{l - 1}

$\frac{\partial x_i^l}{\partial w_a}= y_{i+a}^{l-1}$

wobei der erste Term wiederum der Fehler in der vorherigen Schicht und

die nichtlineare Aktivierungsfunktion ist.

\frac{\partial E.}{\partial x_{ich}^{l}} = \frac{\partial E.}{\partial y_{ich}^{l}} \frac{\partial y_{ich}^{l}}{\partial x_{ich}^{l}} = \frac{\partial E.}{\partial y_{ich}^{l}} \frac{\partial}{\partial x_{ich}^{l}} f (x_{ich}^{l})

$\frac{\partial E}{\partial x_i^l} = \frac{\partial E}{\partial y_i^l} \frac{\partial y_i^l}{\partial x_i^l} = \frac{\partial E}{\partial y_i^l} \frac{\partial}{\partial x_i^l} f(x_i^{l})$

f

$f$

Mit allen notwendigen Entitäten können wir nun den Fehler berechnen und effizient zurück auf die wertvolle Schicht übertragen:

δ_{ein}^{l - - 1} = \frac{\partial E.}{\partial y_{ich}^{l - - 1}} = \sum_{ein = 0}^{m - - 1} \frac{\partial E.}{\partial x_{ich - - ein}^{l}} \frac{\partial x_{ich - - ein}^{l}}{\partial y_{ich}^{l - - 1}} = \sum_{ein = 0}^{m - - 1} \frac{\partial E.}{\partial x_{ich - - ein}^{l}} w_{ein}^{f l ich p p e d}

$\delta^{l-1}_a = \frac{\partial E}{\partial y_i^{l-1} } = \sum\limits_{a=0}^{m-1} \frac{\partial E}{\partial x_{i-a}^l} \frac{\partial x_{i-a}^l}{\partial y_i^{l-1}} = \sum\limits_{a=0}^{m-1} \frac{\partial E}{\partial x^l_{i-a}} w_a^{flipped}$

x_{i}^{l}

$x_i^l$

y_{i}^{l - 1}

$y_i^{l-1}$

f l i p p e d

$flipped$

T

$T$

Daher können Sie den Fehler in der nächsten Ebene einfach berechnen durch (jetzt in Vektornotation):

δ^{l} = (w^{l})^{T.} δ^{l + 1} f^{'} (x^{l})

$\delta^{l} = (w^{l})^{T} \delta^{l+1} f'(x^{l})$

welches für eine Faltungs- und Unterabtastschicht wird:

δ^{l} = u p s ein m p l e ((w^{l})^{T.} δ^{l + 1}) f^{'} (x^{l})

$\delta^{l} = upsample((w^{l})^{T} \delta^{l+1}) f'(x^{l})$ bei dem die

u p s a m p l e

$upsample$ Operation überträgt den Fehler durch die maximale Pooling-Schicht.

Bitte zögern Sie nicht, mich hinzuzufügen oder zu korrigieren!

Referenzen siehe:

http://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/ http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/

und für eine C ++ - Implementierung (ohne Installation): https://github.com/nyanp/tiny-cnn#supported-networks

— LeoW.
quelle