Ich versuche, einem mit Backpropagation trainierten neuronalen Netzwerk eine Softmax-Ebene hinzuzufügen, also versuche ich, den Gradienten zu berechnen.
Der Softmax-Ausgang ist wobeijdie Ausgangsneuronenzahl ist.
Wenn ich es ableite, bekomme ich
Ähnlich wie bei der logistischen Regression. Dies ist jedoch falsch, da meine Überprüfung des numerischen Gradienten fehlschlägt.
Was mache ich falsch? Ich hatte den Gedanken, dass ich auch die Kreuzableitungen berechnen muss (dh ) aber ich bin mir nicht sicher, wie ich das machen soll und halte die Dimension des Gradienten gleich, damit er für den Back Propagation-Prozess passt.