Ich habe ein paar Artikel über die Kernel-Initialisierung gelesen und in vielen Artikeln wird erwähnt, dass sie die L2-Regularisierung des Kernels verwenden (oft mit ).
Tut irgendjemand etwas anderes, als die Verzerrung mit konstanter Null zu initialisieren und sie nicht zu regulieren?
Kernel-Initialisierungspapiere
- Mischkin und Matas: Du brauchst nur eine gute Init
- Xavier Glorot und Yoshua Bengio: Verständnis für die Schwierigkeit, tiefe Feedforward-Neuronale Netze zu trainieren
- He et al .: Ein tiefer Einblick in Gleichrichter : Überdurchschnittliche Leistung auf menschlicher Ebene bei der ImageNet-Klassifizierung