Ich bin neugierig, wie Gradienten mithilfe von ResNet-Modulen / Überspringverbindungen über ein neuronales Netzwerk zurückgewonnen werden. Ich habe ein paar Fragen zu ResNet gesehen (z. B. Neuronales Netzwerk mit Sprungschichtverbindungen ), aber diese Frage bezieht sich speziell auf die Rückübertragung von Verläufen während des Trainings.
Die grundlegende Architektur ist hier:
Ich habe diesen Artikel gelesen, Studie über verbleibende Netzwerke zur Bilderkennung , und in Abschnitt 2 wird erläutert, wie eines der Ziele von ResNet darin besteht, einen kürzeren / klareren Pfad für die Rückübertragung des Gradienten auf die Basisschicht zu ermöglichen.
Kann jemand erklären, wie der Gradient durch diese Art von Netzwerk fließt? Ich verstehe nicht ganz, wie die Additionsoperation und das Fehlen einer parametrisierten Schicht nach der Addition eine bessere Gradientenausbreitung ermöglichen. Hat es etwas damit zu tun, wie sich der Verlauf beim Durchlaufen eines Additionsoperators nicht ändert und irgendwie ohne Multiplikation neu verteilt wird?
Außerdem kann ich nachvollziehen, wie sich das Problem mit dem verschwindenen Gradienten lindert, wenn der Gradient nicht durch die Gewichtsschichten fließen muss. Wenn jedoch kein Gradient durch die Gewichte fließt, wie werden sie nach dem Rückwärtsdurchlauf aktualisiert?
the gradient doesn't need to flow through the weight layers
, können Sie das erklären?