Ich lese das:
Um unser neuronales Netzwerk zu trainieren, werden wir jeden Parameter W (l) ijWij (l) und jeden b (l) ibi (l) auf einen kleinen Zufallswert nahe Null initialisieren (sagen wir gemäß einem Normalen (0, ϵ2) Normalen (0)) , ϵ2) Verteilung für einige kleine ϵϵ, sagen wir 0,01)
von Stanford Deep Learning-Tutorials im siebten Absatz des Backpropagation-Algorithmus
Was ich nicht verstehe, ist, warum die Initialisierung des Gewichts oder der Vorspannung bei 0 liegen sollte ?