Beim Initialisieren von Verbindungsgewichtungen in einem vorwärtsgerichteten neuronalen Netzwerk ist es wichtig, sie zufällig zu initialisieren, um Symmetrien zu vermeiden, die der Lernalgorithmus nicht unterbrechen könnte.
Die Empfehlung, die ich an verschiedenen Stellen gesehen habe (z. B. in TensorFlows MNIST-Tutorial ), ist die Verwendung der abgeschnittenen Normalverteilung unter Verwendung einer Standardabweichung von , wobei die Anzahl der Eingaben in die gegebene Neuronenschicht.
Ich glaube, dass die Standardabweichungsformel sicherstellt, dass sich rückpropagierte Farbverläufe nicht zu schnell auflösen oder verstärken. Aber ich weiß nicht, warum wir eine verkürzte Normalverteilung im Gegensatz zu einer regulären Normalverteilung verwenden. Soll man seltene Ausreißergewichte vermeiden?