Ich bin ein Neuling in Faltungs-Neuronalen Netzen und habe nur eine Vorstellung von Feature-Maps und wie Faltung von Bildern durchgeführt wird, um Features zu extrahieren. Ich würde mich freuen, einige Details zur Anwendung der Chargennormalisierung in CNN zu erfahren.
Ich habe dieses Papier https://arxiv.org/pdf/1502.03167v3.pdf gelesen und konnte den BN-Algorithmus verstehen, der auf Daten angewendet wurde, aber am Ende wurde erwähnt, dass eine geringfügige Änderung erforderlich ist, wenn auf CNN angewendet wird:
Für Faltungsebenen möchten wir außerdem, dass die Normalisierung der Faltungseigenschaft entspricht - damit verschiedene Elemente derselben Feature-Map an verschiedenen Orten auf dieselbe Weise normalisiert werden. Um dies zu erreichen, normalisieren wir gemeinsam alle Aktivierungen in einem Minibatch über alle Standorte. In Alg. In 1 lassen wir B die Menge aller Werte in einer Feature-Map über die Elemente eines Mini-Batches und räumliche Standorte hinweg sein. Für einen Mini-Batch der Größe m und Feature-Maps der Größe p × q verwenden wir also den Effekt - aktive Mini-Charge der Größe m ′ = | B | = m · pq. Wir lernen ein Paar von Parametern γ (k) und β (k) pro Merkmalskarte und nicht pro Aktivierung. Alg. 2 wird auf ähnliche Weise modifiziert, so dass die BN-Transformation während der Inferenz dieselbe lineare Transformation auf jede Aktivierung in einer gegebenen Merkmalskarte anwendet.
Ich bin total verwirrt, wenn sie sagen, "dass verschiedene Elemente derselben Feature-Map an verschiedenen Orten auf dieselbe Weise normalisiert werden".
Ich weiß, was Feature-Maps bedeuten, und verschiedene Elemente sind die Gewichte in jeder Feature-Map. Aber ich konnte nicht verstehen, was Ort oder räumlicher Ort bedeutet.
Ich konnte den folgenden Satz überhaupt nicht verstehen. "In Alg. 1 lassen wir B die Menge aller Werte in einer Feature-Map sowohl über die Elemente eines Mini-Batch als auch über räumliche Orte sein."
Ich würde mich freuen, wenn jemand mich kalt ausarbeiten und in viel einfacheren Worten erklären würde
B*H*W
Werten nehmen, nicht vonB*H*C
Werten. Lesen Sie den ersten Absatz nach Batchnorm in der Conv-Ebene . In jedem Fall +1.