Das Problem ist:
Leiten Sie den Gradienten in Bezug auf die Eingabeschicht für ein einzelnes neuronales Netzwerk mit versteckter Schicht ab, indem Sie Sigmoid für Eingabe -> versteckt, Softmax für versteckt -> Ausgabe mit einem Kreuzentropieverlust verwenden.
Ich kann den größten Teil der Ableitung mit der Kettenregel durchstehen, bin mir aber nicht sicher, wie ich sie tatsächlich "verketten" soll.
Definieren Sie einige Notationen
, ist die Sigmoidfunktion
,
,ist softmax Funktion
, reale Etikett one-hotVektor ist
Dann durch die Kettenregel,
Einzelne Farbverläufe sind:
Jetzt müssen wir die Definitionen miteinander verketten. Bei Einzelvariablen ist dies einfach, wir multiplizieren einfach alles miteinander. Bei Vektoren bin ich mir nicht sicher, ob ich eine elementweise Multiplikation oder eine Matrixmultiplikation verwenden soll.
Wobei eine elementweise Multiplikation von Vektoren ist und eine Matrixmultiplikation ist. Diese Kombination von Operationen ist die einzige Möglichkeit, diese miteinander zu verbinden, um einen Dimensionsvektor zu erhalten, von dem ich weiß, dass muss.
Meine Frage ist: Wie kann ich grundsätzlich herausfinden, welchen Operator ich verwenden soll? Ich bin besonders verwirrt über die Notwendigkeit des elementweisen zwischen und .
Vielen Dank!