Wie sollte der Bias initialisiert und reguliert werden?

Ich habe ein paar Artikel über die Kernel-Initialisierung gelesen und in vielen Artikeln wird erwähnt, dass sie die L2-Regularisierung des Kernels verwenden (oft mit $\lambda = 0.0001$ ).

Tut irgendjemand etwas anderes, als die Verzerrung mit konstanter Null zu initialisieren und sie nicht zu regulieren?

Kernel-Initialisierungspapiere

Mischkin und Matas: Du brauchst nur eine gute Init
Xavier Glorot und Yoshua Bengio: Verständnis für die Schwierigkeit, tiefe Feedforward-Neuronale Netze zu trainieren
He et al .: Ein tiefer Einblick in Gleichrichter : Überdurchschnittliche Leistung auf menschlicher Ebene bei der ImageNet-Klassifizierung

neural-network

— Martin Thoma
quelle

Aus den Stanford CS231N Notes ( http://cs231n.github.io/neural-networks-2/ ):

Initialisierung der Vorurteile. Es ist möglich und üblich, die Vorspannungen auf Null zu initialisieren, da das Aufbrechen der Asymmetrie durch die kleinen Zufallszahlen in den Gewichten bereitgestellt wird. Bei ReLU-Nichtlinearitäten verwenden manche Leute gerne einen kleinen konstanten Wert wie 0,01 für alle Verzerrungen, da dies sicherstellt, dass alle ReLU-Einheiten zu Beginn feuern und daher einen gewissen Gradienten erhalten und ausbreiten. Es ist jedoch nicht klar, ob dies zu einer konsistenten Verbesserung führt (in der Tat scheinen einige Ergebnisse darauf hinzudeuten, dass dies eine schlechtere Leistung erbringt), und es ist üblicher, einfach eine 0-Vorspannungsinitialisierung zu verwenden.

In LSTMs ist es üblich, die Verzerrungen auf 1 zu initialisieren - siehe zum Beispiel http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

— Lukas Biewald
quelle