Ich habe das Papier zur Chargennormalisierung (BN) (1) gelesen und es stand:
Zu diesem Zweck verwenden wir nach dem Training des Netzwerks die Normalisierung Verwendung der Grundgesamtheit anstelle von mini -Batch, Statistiken.
Meine Frage ist, wie berechnet es diese Bevölkerungsstatistik und über welchen Trainingssatz (Test, Validierung, Zug)? Ich dachte, ich wüsste, was das bedeutet, aber nach einiger Zeit merke ich, dass ich nicht sicher bin, wie es das berechnet. Ich gehe davon aus, dass es versucht, den wahren Mittelwert und die Varianz abzuschätzen , obwohl ich nicht sicher bin, wie es das macht. Was ich wahrscheinlich tun würde, ist, den Mittelwert und die Varianz gemäß dem gesamten Datensatz zu berechnen und diese Momente für die Schlussfolgerung zu verwenden.
Was mich jedoch vermuten ließ, dass ich falsch liege, ist ihre Diskussion über eine unvoreingenommene Varianzschätzung später in demselben Abschnitt:
Wir verwenden die unverzerrte Varianzschätzung bei der die Erwartung über dem Training liegt Mini-Chargen der Größe und sind ihre Stichprobenvarianzen.
Da es sich um Bevölkerungsstatistiken handelt, fühlte sich dieser Kommentar zu dem Papier so an, als käme er (für mich) aus dem Nichts und war sich nicht sicher, worüber sie sprachen. Stellen sie nur (zufällig) klar, dass sie während des Trainings unvoreingenommene Schätzungen verwenden, oder verwenden sie eine unvoreingenommene Schätzung, um die Bevölkerungsstatistik zu berechnen?
1 : Ioffe S. und Szegedy C. (2015),
"Chargennormalisierung: Beschleunigung des tiefen Netzwerktrainings durch Reduzierung der internen Kovariatenverschiebung",
Tagungsband der 32. Internationalen Konferenz über maschinelles Lernen , Lille, Frankreich, 2015.
Journal of Machine Learning Research: W & CP Band 37