In dem Artikel Batch-Normalisierung: Beschleunigen des tiefen Netzwerktrainings durch Reduzieren der internen Kovariatenverschiebung ( hier ) Bevor der Prozess der Batch-Normalisierung erläutert wird, wird versucht, die damit verbundenen Probleme zu erklären (ich verstehe nicht, was genau hier angesprochen wird) .
Auszug aus Abschnitt 2, Abs. 2:
Wir könnten in Betracht ziehen, die Aktivierung bei jedem Trainingsschritt oder in einem bestimmten Intervall aufzuhellen, indem wir entweder das Netzwerk direkt ändern oder die Parameter des Optimierungsalgorithmus so ändern, dass sie von den Netzwerkaktivierungswerten abhängen (Wiesler et al., 2014; Raiko et al., 2012) ; Povey et al., 2014; Desjardins & Kavukcuoglu). Wenn diese Modifikationen jedoch mit den Optimierungsschritten durchsetzt sind, versucht der Gradientenabstiegsschritt möglicherweise, die Parameter auf eine Weise zu aktualisieren, die eine Aktualisierung der Normalisierung erfordert, wodurch der Effekt des Gradientenschritts verringert wird. Betrachten wir zum Beispiel eine Schicht mit der Eingabe u , die den gelernten Bias fügt und normalisiert das Ergebnis durch den Mittelwert der Aktivierungs Subtrahieren der Trainingsdaten berechnet wobei die Menge von Werten von über der Trainingsmenge ist und .
Wenn ein Gradientenabstiegsschritt die Abhängigkeit von E [x] von b ignoriert, wird , wobei . Dann ist .
Somit führte die Kombination der Aktualisierung auf b und der anschließenden Änderung der Normalisierung weder zu einer Änderung der Ausgabe der Schicht noch folglich zu einem Verlust. Während das Training fortgesetzt wird, wird b auf unbestimmte Zeit wachsen, während der Verlust fest bleibt. Dieses Problem kann sich verschlimmern, wenn die Normalisierung die Aktivierungen nicht nur zentriert, sondern auch skaliert.
Hier ist mein Verständnis der Literatur:
Wir haben eine Charge der Größe N (eine Trainingscharge)
Es seien zwei beliebige verborgene Schichten miteinander verbunden (L1 und L2), die durch die Parameter und
Der Ausgang von L1 ist x1
(hier beginnt die obige Literatur. Die Dimension von u ist MxN) (M ist die Anzahl der Einheiten in L2)
(Dimension b = Dimension x = Dimension u = MxN)
Bevor wir nun x in L2 einspeisen, zentrieren wir es, indem wir den Mittelwert von von jedem Eintrag in subtrahieren ( ).
Wir berechnen den Verlust und prognostizieren den Gradienten zurück und aktualisieren nur das dieser Schicht , um einen Vernunfttest durchzuführen. Neues =
Wir führen es erneut auf demselben Stapel mit aktualisiertem
Wiederholen Sie 3 und 4
(Dimension b, = Dimension x = Dimension u = MxN)
Bevor wir nun x in L2 einspeisen, zentrieren wir es, indem wir den Mittelwert von von jedem Eintrag in subtrahieren ( ). Dies entspricht dem, was vor der Aktualisierung von b berechnet wurde, und daher musste die Aktualisierung von b Auswirkungen auf das Training haben
Meine Frage bezieht sich auf diesen Teil des Auszugs:
"Wenn ein Gradientenabstiegsschritt die Abhängigkeit von E [x] von b ignoriert, aktualisiert er , wobei . Dann "
Warum ist
" " abhängig davon, was davor kommt? Was ist überhaupt der Sinn dieses Stücks? Bitte beachten Sie auch, dass die Verwendung des Wortes "Dann" (fett gedruckt), das die Aussage impliziert, notwendigerweise die Kausalität aus dem Vorhergehenden zieht