Soweit ich weiß, normalisiert die Batch-Norm alle Eingabemerkmale einer Schicht auf eine Einheitsnormalverteilung . Der Mittelwert und die Varianz μ , σ 2 werden geschätzt, indem ihre Werte für die aktuelle Mini-Charge gemessen werden.
Nach der Normalisierung werden die Eingänge um Skalarwerte skaliert und verschoben:
(Korrigieren Sie mich, wenn ich hier falsch liege - hier werde ich etwas unsicher.)
und β sind Skalarwerte, und für jede chargennormierte Schicht gibt es jeweils ein Paar. Sie werden zusammen mit den Gewichten mit Backprop und SGD gelernt.
Meine Frage ist, sind diese Parameter nicht redundant, da die Eingaben durch die Gewichte in der Ebene selbst in irgendeiner Weise skaliert und verschoben werden können. Mit anderen Worten, wenn
und
dann
Was bringt es also, sie aus dem Netzwerk hinzuzufügen, um bereits die Größenordnung und Verschiebung zu lernen? Oder verstehe ich Dinge total falsch?