Deep Neural Network - Backpropogation mit ReLU

Ich habe einige Schwierigkeiten, mit ReLU die Rückübertragung abzuleiten, und ich habe einige Arbeit geleistet, bin mir aber nicht sicher, ob ich auf dem richtigen Weg bin.

Kostenfunktion: wobei der reale Wert und ein vorhergesagter Wert ist. Nehmen Sie auch an, dass > 0 immer ist. $\frac{1}{2}(y-\hat y)^2$ $y$ $\hat y$ $x$

1 Schicht ReLU, wobei das Gewicht auf der 1. Schicht $w_1$

$\frac{dC}{dw_1}=\frac{dC}{dR}\frac{dR}{dw_1}$

$\frac{dC}{w_1}=(y-ReLU(w_1x))(x)$

2 Layer ReLU, wobei die Gewichte auf dem 1. Layer und auf dem 2. Layer Und ich wollte den 1. Layer aktualisieren $w_2$ $w_1$ $w_2$

$\frac{dC}{dw_2}=\frac{dC}{dR}\frac{dR}{dw_2}$

$\frac{dC}{w_2}=(y-ReLU(w_1*ReLU(w_2x))(w_1x)$

Da $ReLU(w_1*ReLU(w_2x))=w_1w_2x$

3 Layer ReLU, wobei die Gewichte auf dem 1. Layer , dem 2. Layer und dem 3. Layer $w_3$ $w_2$ $w_1$

$\frac{dC}{dw_3}=\frac{dC}{dR}\frac{dR}{dw_3}$

$\frac{dC}{w_3}=(y-ReLU(w_1*ReLU(w_2(*ReLU(w_3)))(w_1w_2x)$

Seit $ReLU(w_1*ReLU(w_2(*ReLU(w_3))=w_1w_2w_3x$

Da die Kettenregel nur mit 2 Ableitungen im Vergleich zu einem Sigmoid dauert, könnte das so lang sein wie Anzahl von Schichten. $n$

Angenommen, ich wollte alle 3 aktualisieren, wobei die 3. Ebene ist, die 2. Ebene ist und die 3. Ebene ist $w_1$ $w_2$ $w_1$

$\frac{dC}{w_1}=(y-ReLU(w_1x))(x)$

$\frac{dC}{w_2}=(y-ReLU(w_1*ReLU(w_2x))(w_1x)$

$\frac{dC}{w_3}=(y-ReLU(w_1*ReLU(w_2(*ReLU(w_3)))(w_1w_2x)$

Wie kann ein Verschwinden verhindert werden, wenn diese Ableitung korrekt ist? Im Vergleich zu Sigmoid, wo wir in der Gleichung viel mit 0,25 multiplizieren müssen, während ReLU keine Multiplikation mit konstanten Werten hat. Wenn es Tausende von Schichten gäbe, gäbe es eine Menge Multiplikation aufgrund von Gewichten, würde dies dann nicht zu einem verschwinden oder explodierenden Gradienten führen?

neural-network backpropagation

— user1157751
quelle

@NeilSlater Danke für deine Antwort! Können Sie das näher erläutern, ich bin mir nicht sicher, was Sie damit gemeint haben?

— user1157751

Ah, ich glaube ich weiß was du meintest. Nun, der Grund, warum ich diese Frage aufgeworfen habe, ist, dass die Ableitung korrekt ist. Ich habe in der Umgebung gesucht und kein Beispiel für ReLU gefunden, das vollständig von Grund auf neu erstellt wurde.

— user1157751

Arbeitsdefinitionen der ReLU-Funktion und ihrer Ableitung:

$ReLU(x) = \begin{cases} 0, & \text{if } x < 0, \\ x, & \text{otherwise}. \end{cases}$

$\frac{d}{dx} ReLU(x) = \begin{cases} 0, & \text{if } x < 0, \\ 1, & \text{otherwise}. \end{cases}$

Das Derivat ist die Einheitssprungfunktion . Dies ignoriert ein Problem bei , bei dem der Gradient nicht genau definiert ist, dies ist jedoch für neuronale Netze kein praktisches Problem . Mit der obigen Formel ist die Ableitung bei 0 1, aber Sie können sie genauso wie 0 oder 0,5 behandeln, ohne dass die Leistung des neuronalen Netzwerks wirklich beeinträchtigt wird. $x=0$

Vereinfachtes Netzwerk

Schauen wir uns anhand dieser Definitionen Ihre Beispielnetzwerke an.

Sie führen eine Regression mit der Kostenfunktion . Sie haben als Ausgabe des künstlichen Neurons definiert, aber keinen Eingabewert. Ich füge das der Vollständigkeit halber hinzu - nenne es , füge eine Indizierung nach Ebene hinzu, und ich bevorzuge Kleinbuchstaben für die Vektoren und Großbuchstaben für Matrizen, also Ausgabe der ersten Ebene, für seine Eingabe und für die Gewichtung, die das Neuron mit seiner Eingabe verbindet (in einem größeren Netzwerk, das möglicherweise mit einem tieferen $C = \frac{1}{2}(y-\hat{y})^2$ $R$ $z$ $r^{(1)}$ $z^{(1)}$ $W^{(0)}$ $x$ $r$ Wert stattdessen). Ich habe auch die Indexnummer für die Gewichtsmatrix angepasst - warum das für das größere Netzwerk klarer wird. NB Ich ignoriere es, vorerst mehr als ein Neuron in jeder Schicht zu haben.

Betrachtet man das einfache 1-Schicht-1-Neuronennetz, so ergeben sich folgende Feed-Forward-Gleichungen:

$z^{(1)} = W^{(0)}x$

$\hat{y} = r^{(1)} = ReLU(z^{(1)})$

Die Ableitung der Kostenfunktion für eine Beispielschätzung lautet:

$\frac{\partial C}{\partial \hat{y}} = \frac{\partial C}{\partial r^{(1)}} = \frac{\partial}{\partial r^{(1)}}\frac{1}{2}(y-r^{(1)})^2 = \frac{1}{2}\frac{\partial}{\partial r^{(1)}}(y^2 - 2yr^{(1)} + (r^{(1)})^2) = r^{(1)} - y$

Verwenden der Kettenregel für die Rückübertragung auf den Wert vor der Transformation ( ): $z$

$\frac{\partial C}{\partial z^{(1)}} = \frac{\partial C}{\partial r^{(1)}} \frac{\partial r^{(1)}}{\partial z^{(1)}} = (r^{(1)} - y)Step(z^{(1)}) = (ReLU(z^{(1)}) - y)Step(z^{(1)})$

Dieses ist eine Zwischenstufe und ein kritischer Teil der Backprop-Verknüpfungsschritte. Ableitungen überspringen diesen Teil häufig, weil sie durch geschickte Kombinationen von Kostenfunktion und Ausgabeschicht vereinfacht werden. Hier ist es nicht. $\frac{\partial C}{\partial z^{(1)}}$

Um den Gradienten in Bezug auf das Gewicht , ist es eine weitere Iteration der Kettenregel: $W^{(0)}$

$\frac{\partial C}{\partial W^{(0)}} = \frac{\partial C}{\partial z^{(1)}} \frac{\partial z^{(1)}}{\partial W^{(0)}} = (ReLU(z^{(1)}) - y)Step(z^{(1)})x = (ReLU(W^{(0)}x) - y)Step(W^{(0)}x)x$

. . . weil daher $z^{(1)} = W^{(0)}x$ $\frac{\partial z^{(1)}}{\partial W^{(0)}} = x$

Das ist die Komplettlösung für Ihr einfachstes Netzwerk.

In einem mehrschichtigen Netzwerk müssen Sie dieselbe Logik jedoch auch auf die nächste Schicht übertragen. Außerdem haben Sie in der Regel mehr als ein Neuron in einer Schicht.

Allgemeineres ReLU-Netzwerk

Wenn wir allgemeinere Begriffe hinzufügen, können wir mit zwei beliebigen Ebenen arbeiten. Nenne sie Layer indiziert mit und Layer indiziert mit . Die Gewichte sind jetzt eine Matrix. Unsere Feed-Forward-Gleichungen sehen also folgendermaßen aus: $(k)$ $i$ $(k+1)$ $j$

$z^{(k+1)}_j = \sum_{\forall i} W^{(k)}_{ij}r^{(k)}_i$

$r^{(k+1)}_j = ReLU(z^{(k+1)}_j)$

In der Ausgabeebene ist der anfängliche Gradient für immer noch . Ignorieren Sie dies jedoch für den Moment und sehen Sie sich die generische Methode zur Backpropagierung an, vorausgesetzt, wir haben bereits Beachten Sie nur, dass dies letztendlich der Fall ist woher bekommen wir die Ausgabekosten Funktionsverläufe. Dann gibt es 3 Gleichungen, die wir nach der Kettenregel aufschreiben können: $r^{output}_j$ $r^{output}_j - y_j$ $\frac{\partial C}{\partial r^{(k+1)}_j}$

Zuerst müssen wir zur Neuroneneingabe gelangen, bevor wir ReLU anwenden können:

$\frac{\partial C}{\partial z^{(k+1)}_j} = \frac{\partial C}{\partial r^{(k+1)}_j} \frac{\partial r^{(k+1)}_j}{\partial z^{(k+1)}_j} = \frac{\partial C}{\partial r^{(k+1)}_j}Step(z^{(k+1)}_j)$

Wir müssen den Gradienten auch auf vorherige Schichten übertragen, wobei alle verbundenen Einflüsse für jedes Neuron aufsummiert werden:

$\frac{\partial C}{\partial r^{(k)}_i} = \sum_{\forall j} \frac{\partial C}{\partial z^{(k+1)}_j} \frac{\partial z^{(k+1)}_j}{\partial r^{(k)}_i} = \sum_{\forall j} \frac{\partial C}{\partial z^{(k+1)}_j} W^{(k)}_{ij}$

Und wir müssen dies mit der Gewichtsmatrix verbinden, um später Anpassungen vornehmen zu können:

$\frac{\partial C}{\partial W^{(k)}_{ij}} = \frac{\partial C}{\partial z^{(k+1)}_j} \frac{\partial z^{(k+1)}_j}{\partial W^{(k)}_{ij}} = \frac{\partial C}{\partial z^{(k+1)}_j} r^{(k)}_{i}$

Sie können diese weiter auflösen (durch Ersetzen durch vorherige Werte) oder kombinieren (häufig werden die Schritte 1 und 2 kombiniert, um Farbverläufe vor der Transformation schichtweise in Beziehung zu setzen). Das Obige ist jedoch die allgemeinste Form. Sie können auch den in Gleichung 1 für die Ableitungsfunktion Ihrer aktuellen Aktivierungsfunktion einsetzen - dies ist der einzige Ort, an dem dies die Berechnungen beeinflusst. $Step(z^{(k+1)}_j)$

Zurück zu Ihren Fragen:

Wie kann ein Verschwinden verhindert werden, wenn diese Ableitung korrekt ist?

Ihre Ableitung war nicht korrekt. Dies spricht jedoch Ihre Bedenken nicht vollständig an.

Der Unterschied zwischen der Verwendung von Sigmoid und ReLU liegt nur in der Schrittfunktion im Vergleich zu z. B. Sigmoid's , das einmal pro Schicht angewendet wird. Wie Sie aus den obigen generischen Schicht-für-Schicht-Gleichungen ersehen können, erscheint der Gradient der Übertragungsfunktion nur an einer Stelle. Die beste Fallableitung des Sigmoid addiert einen Faktor von 0,25 (wenn ), und es wird schlimmer als das und sättigt sich schnell zu einer Ableitung nahe Null weg von . Der Gradient der ReLU ist entweder 0 oder 1, und in einem gesunden Netzwerk ist 1 oft genug, um weniger Gradientenverlust während der Rückübertragung zu haben. Dies ist nicht garantiert, aber Experimente zeigen, dass ReLU in tiefen Netzwerken eine gute Leistung aufweist. $y(1-y)$ $x = 0, y = 0.5$ $x=0$

Wenn es Tausende von Schichten gäbe, gäbe es eine Menge Multiplikation aufgrund von Gewichten. Würde dies dann nicht dazu führen, dass der Gradient verschwindet oder explodiert?

Ja, das kann sich auch auswirken. Dies kann unabhängig von der Wahl der Übertragungsfunktion ein Problem sein. In einigen Kombinationen kann ReLU auch dazu beitragen, explodierende Steigungen unter Kontrolle zu halten, da sie nicht gesättigt sind (daher sind große Gewichtsnormen in der Regel schlechte direkte Lösungen und es ist unwahrscheinlich, dass sich ein Optimierer auf sie zubewegt). Dies ist jedoch nicht garantiert.

— Neil Slater
quelle

\frac{d C}{d \hat{y}}

$\frac{dC}{d \hat y}$

\frac{\partial C}{\partial \hat{y}} = \frac{\partial C}{\partial r^{(1)}}

$\frac{\partial C}{\partial \hat{y}} = \frac{\partial C}{\partial r^{(1)}}$

\hat{y} = r^{(1)}

$\hat{y} = r^{(1)}$

C

$C$

\frac{1}{2} (y - \hat{y})^{2}

$\frac{1}{2}(y- \hat y)^2$

\hat{y}

$\hat y$

\frac{d C}{d \hat{y}} = \frac{d C}{d U} \frac{d U}{d \hat{y}}

$\frac{dC}{d \hat y}=\frac{dC}{dU}\frac{dU}{d \hat y}$

U = y - \hat{y}

$U = y - \hat y$

Wenn Sie es einfacher machen können, indem Sie expandieren. Dann erweitern Sie bitte das Quadrat.

— user1157751

@ user1157751: Ja, Sie könnten die Kettenregel auf diese Weise verwenden, und sie würde die gleiche Antwort geben wie ich. Ich habe das Quadrat gerade erweitert - ich zeige es.

— Neil Slater