Der Betrag, den Sie für jedes einzelne Gewicht und jede Abweichung ändern, ist die partielle Ableitung Ihrer Kostenfunktion in Bezug auf jedes einzelne Gewicht und jede einzelne Abweichung.
∂C/∂(index of bias in network)
Da Ihre Kostenfunktion wahrscheinlich nicht explizit von einzelnen Gewichten und Werten abhängt (Kosten können gleich sein (Netzwerkleistung - erwartete Leistung) ^ 2 zum Beispiel), müssen Sie die partiellen Ableitungen jedes Gewichts und jeder Verzerrung mit etwas in Beziehung setzen, das Sie haben wissen, dh die Aktivierungswerte (Ausgänge) von Neuronen. Hier ist eine großartige Anleitung dazu:
https://medium.com/@erikhallstrm/backpropagation-from-the-beginning-77356edf427d
In diesem Handbuch wird klar angegeben, wie diese Dinge zu tun sind, es kann jedoch manchmal an Erklärungen mangeln. Ich fand es sehr hilfreich, die Kapitel 1 und 2 dieses Buches zu lesen, als ich den oben verlinkten Leitfaden las:
http://neuralnetworksanddeeplearning.com/chap1.html
(bietet wichtige Hintergrundinformationen für die Beantwortung Ihrer Frage)
http://neuralnetworksanddeeplearning.com/chap2.html
(beantwortet Ihre Frage)
Grundsätzlich werden Verzerrungen auf die gleiche Weise aktualisiert wie Gewichte: Eine Änderung wird basierend auf dem Gradienten der Kostenfunktion an einem mehrdimensionalen Punkt bestimmt.
Stellen Sie sich das Problem, das Ihr Netzwerk zu lösen versucht, als eine Landschaft aus mehrdimensionalen Hügeln und Tälern (Gefällen) vor. Diese Landschaft ist eine grafische Darstellung, wie sich Ihre Kosten mit sich ändernden Gewichten und Vorurteilen ändern. Das Ziel eines neuronalen Netzwerks ist es, den tiefsten Punkt in dieser Landschaft zu erreichen, um so die geringsten Kosten zu finden und Fehler zu minimieren. Wenn Sie sich Ihr Netzwerk als einen Reisenden vorstellen, der versucht, den Grund dieser Steigungen zu erreichen (dh die Steigung), hängt der Betrag, um den Sie jedes Gewicht (und jede Abweichung) ändern, mit der Steigung der Steigung (Steigung der Funktion) zusammen. dass der Reisende gerade nach unten klettert. Die genaue Position des Reisenden wird durch einen mehrdimensionalen Koordinatenpunkt (Gewicht1, Gewicht2, Gewicht3, ... Gewicht_n) angegeben, an dem die Vorspannung als eine andere Art von Gewicht angesehen werden kann.