Softmax-Schicht in einem neuronalen Netzwerk

43

Ich versuche, einem mit Backpropagation trainierten neuronalen Netzwerk eine Softmax-Ebene hinzuzufügen, also versuche ich, den Gradienten zu berechnen.

Der Softmax-Ausgang ist wobeidie Ausgangsneuronenzahl ist. $h_j = \frac{e^{z_j}}{\sum{e^{z_i}}}$ $j$

Wenn ich es ableite, bekomme ich

$\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j)$

Ähnlich wie bei der logistischen Regression. Dies ist jedoch falsch, da meine Überprüfung des numerischen Gradienten fehlschlägt.

Was mache ich falsch? Ich hatte den Gedanken, dass ich auch die Kreuzableitungen berechnen muss (dh ) aber ich bin mir nicht sicher, wie ich das machen soll und halte die Dimension des Gradienten gleich, damit er für den Back Propagation-Prozess passt. $\frac{\partial{h_j}}{\partial{z_k}}$

neural-networks

— Ran
quelle

3

Sie sollten den Titel Ihrer Frage verbessern, da es nicht um das Hinzufügen einer allgemeinen Softmax-Ebene zu einem NN geht, da Ihre Frage sich darauf bezieht, wie die Verlaufsprüfung fehlschlägt. Ich empfehle dringend, den Titel in "Warum funktioniert die Backpropagation nicht mehr richtig, wenn ich meinem neuronalen Netzwerk eine Softmax-Ebene hinzufüge" zu ändern.

— Charlie Parker

43

Ich fühle mich ein bisschen schlecht über meine eigene Antwort für diese Bereitstellung , weil es ziemlich gut durch Amöben und juampa, mit Ausnahme vielleicht der letzte Intuition darüber , wie das aufgenommen wird Jacobi reduziert auf einen Vektor zurück.

Sie haben den Gradienten der Diagonale der jakobianischen Matrix, das heißt, richtig abgeleitet

${\partial h_i \over \partial z_j}= h_i(1-h_j)\;\;\;\;\;\;: i = j$

und wie Amöbe es sagte, müssen Sie auch die nicht diagonalen Einträge des Jacobian ableiten, die ergeben

${\partial h_i \over \partial z_j}= -h_ih_j\;\;\;\;\;\;: i \ne j$

Diese beiden Begriffsdefinitionen können bequem mit einem Konstrukt namens Kronecker Delta kombiniert werden , sodass die Definition des Gradienten erfolgt

${\partial h_i \over \partial z_j}= h_i(\delta_{ij}-h_j)$

$\left[J \right]_{ij}=h_i(\delta_{ij}-h_j)$

$\nabla h_i$ $x_i$

$[\nabla x]_k = \sum\limits_{i=1} \nabla h_{i,k}$

In Anbetracht der oben definierten Jacobi-Matrix wird dies trivial als das Produkt der Matrix und des Ausgangsfehlervektors implementiert:

$\vec{\sigma_l} = J\vec{\sigma_{l+1}}$

Wenn die Softmax-Ebene Ihre Ausgabeebene ist, vereinfacht die Kombination mit dem Cross-Entropy-Kostenmodell die Berechnung auf einfache Weise

$\vec{\sigma_l} = \vec{h}-\vec{t}$

$\vec{t}$ $\vec{h}$

— Mranz
quelle

\vec{σ_{l}} = (σ_{l, 1}, σ_{l, 2}, . . ., σ_{l, k})

$\vec{\sigma_l} = (\sigma_{l,1}, \sigma_{l,2}, ..., \sigma_{l,k})$

σ_{l, j} = \frac{\partial C}{\partial z_{j}}

$\sigma_{l,j} = \frac{\partial C}{\partial z_j}$

Ja, das ist richtig.

— Mranz

Könnte jemand bitte erklären, was die Kleinbuchstaben-Delta-Terme im Kronecker-Delta sind und wie man sie berechnet?

— Danijar

Ich stecke eine Weile bei diesem Problem fest. Um klarzustellen. Sie haben einen Vektor (vor Softmax) und berechnen dann Softmax. Da die Werte von softmax von allen Eingabewerten abhängen, wird die tatsächliche jacobianische Matrix benötigt. Dann nehmen Sie die jacobianische Matrix und summieren die Zeilen, um einen einzelnen Zeilenvektor zu erhalten, den Sie wie gewohnt für den Gradientenabstieg verwenden. Ist das alles zu 100% richtig?

— Harveyslash

14

Die Ableitung ist falsch. Es sollte sein,

\frac{\partial h_{j}}{\partial z_{k}} = h_{j} δ_{k j} - h_{j} h_{k}

$\frac{\partial h_{j}}{\partial z_{k}} = h_{j}\delta_{kj}-h_{j}h_{k}$

$C$

- \sum_{n} \sum_{k = 1}^{C} t_{k}^{n} \ln y_{k} (x^{n})

$-\sum_{n}\sum_{k=1}^{C}t_{k}^{n}\ln y_{k}(\boldsymbol{x}^{n})$

Wenn der Superindex über die Stichprobenmenge läuft, ist der Wert der k-ten Komponente des Ziels für die n-te Stichprobe. Hier wird angenommen, dass Sie ein 1-aus-C-Codierungsschema verwenden, d. . In diesem Fall sind alle t Null, mit Ausnahme der Komponente, die die entsprechende Klasse darstellt, nämlich Eins. $t_{k}^{n}$ $t_{k}^{n}$

Beachten Sie, dass die ts konstant sind. Daher ist das Minimieren dieser Funktion gleichbedeutend mit dem Minimieren,

- \sum_{n} \sum_{k = 1}^{C} t_{k}^{n} \ln y_{k} (x^{n}) + \sum_{n} \sum_{k = 1}^{C} t_{k}^{n} \ln t_{k}^{n} = - \sum_{n} \sum_{k = 1}^{C} t_{k}^{n} \ln \frac{y_{k} (x^{n})}{t_{k}^{n}}

$-\sum_{n}\sum_{k=1}^{C}t_{k}^{n}\ln y_{k}(\boldsymbol{x}^{n}) + \sum_{n}\sum_{k=1}^{C}t_{k}^{n}\ln t_{k}^{n} = -\sum_{n}\sum_{k=1}^{C}t_{k}^{n}\ln \frac{y_{k}(\boldsymbol{x}^{n})}{t_{k}^{n}}$

was den Vorteil hat, dass der Jakobianer eine sehr bequeme Form annimmt, nämlich

\frac{\partial E}{\partial z_{j}} = h_{j} - t_{j}

$\frac{\partial E}{\partial z_{j}} = h_{j}-t_{j}$

Ich würde Ihnen empfehlen, ein Exemplar von Bishops Neuronalen Netzen für die Mustererkennung zu erwerben . IMHO immer noch das beste Buch über neuronale Netze.

— jpmuc
quelle

14

Jeder Ausgang des Softmax hängt von allen Eingängen ab, daher ist der Gradient in der Tat eine ganze Jacobi-Matrix. Sie haben richtig berechnet , aber Sie brauchen auch wenn . Ich denke, wenn Sie den ersten Ausdruck ableiten können, sollten Sie auch den zweiten leicht ableiten können. $\partial_j h_j = \frac{\partial h_j}{\partial z_j}=h_j(1-h_j)$ $\partial_k h_j=-h_jh_k$ $j \neq k$

Ich bin mir nicht sicher, welches Problem Sie bei der Rückübertragung sehen: In der Softmax-Schicht haben Sie Ausgänge und Eingänge, daher sollte ein Fehler von jedem Ausgang zu jedem Eingang übertragen werden, und genau deshalb benötigen Sie den gesamten Jacobi. Andererseits haben Sie normalerweise eine Kostenfunktion, die der Softmax-Ausgabe zugeordnet ist, z. B. wobei Ihre gewünschten Ausgaben sind (wenn Sie klassifizieren, ist oft eine von ihnen gleich 1) und andere zu 0). Dann interessieren Sie sich tatsächlich für , das mit einer Kettenregel berechnet werden kann, die zu einem ordentlichen Ausdruck führt, und in der Tat ein Vektor (keine Matrix) ist. $j$ $j$

C = - \sum_{j} t_{j} \log h_{j},

$C=-\sum_j t_j \log h_j,$

t_{j}

$t_j$

\frac{\partial C}{\partial z_{j}}

$\frac{\partial C}{\partial z_j}$

— Amöbe sagt Reinstate Monica
quelle

1

Ich werde versuchen, mein Problem besser zu beschreiben, zum Beispiel gemäß diesem Tutorial ufldl.stanford.edu/wiki/index.php/Backpropagation_Algorithm , ich muss die Gewichte und das Delta mit der Ableitung elementweise multiplizieren (Schritt Nummer 3). Wenn ich also die vollständige jacobianische Matrix habe, passen die Abmessungen nicht. Vielen Dank.

— Ran

Wissen Sie, wie Sie vorgehen müssen, wenn es sich nicht um einen Softmax, sondern um eine übliche versteckte Schicht handelt? Stellen Sie sich vor, dass jede Einheit auf dieser Ebene Eingaben von allen Einheiten der vorherigen Ebene erhält (dh diese Ebene ist "vollständig verbunden"), was normalerweise der Fall ist. Dann müssen Sie auch die Fehler durch diese Schicht zurückbreiten, und die Ableitungen bilden auch eine Jacobi-Matrix. Wenn Sie sich nicht sicher sind, wie es geht, hat Ihre Verwirrung nichts mit softmax zu tun.

— Amöbe sagt Reinstate Monica

1

Ich habe es erfolgreich für lineare und Sigmoid-Ebenen implementiert, da die Ableitung ein Vektor ist, sodass ich keine Probleme mit den Dimensionen hatte.

— Ran

Tut mir leid, Ran, vielleicht bin ich nur dumm, aber wenn Sie eine Sigmoid-Schicht haben, die vollständig mit der vorherigen Schicht verbunden ist, wird der Ausgang (oder Eingang) jeder Einheit in Bezug auf die eingehende Verbindung von jeder Einheit auf der abgeleitet vorherige Schicht, dh alle Derivate bilden eine 2D-Matrix, n'est-ce pas?

j

$j$

i

$i$

— Amöbe sagt Reinstate Monica