In einigen Tutorials wurde festgestellt, dass die "Xavier" -Gewichtsinitialisierung (Artikel: Verständnis der Schwierigkeit, tiefe Feedforward-Neuronale Netze zu trainieren ) ein effizienter Weg ist, um die Gewichte von Neuronalen Netzen zu initialisieren.
Für vollständig verbundene Ebenen gab es in diesen Tutorials eine Faustregel:
Dabei ist die Varianz der Gewichte für eine Schicht, die mit einer Normalverteilung initialisiert ist, und n i n , n o u t ist die Anzahl der Neuronen in der Elternschicht und in der aktuellen Schicht.
Gibt es ähnliche Faustregeln für Faltungsschichten?
Ich habe Mühe herauszufinden, was am besten wäre, um die Gewichte einer Faltungsschicht zu initialisieren. Beispiel: In einer Ebene, in der die Form der Gewichte (5, 5, 3, 8)
so ist wie die Kernelgröße 5x5
, wird das Filtern von drei Eingangskanälen (RGB-Eingang) und das Erstellen von 8
Feature-Maps 3
als Anzahl der Eingangsneuronen betrachtet. Oder eher 75 = 5*5*3
, weil die Eingabe 5x5
Patches für jeden Farbkanal sind?
Ich würde beides akzeptieren, eine spezifische Antwort zur Klärung des Problems oder eine "allgemeinere" Antwort, die den allgemeinen Prozess erklärt, die richtige Initialisierung von Gewichten zu finden und vorzugsweise Quellen zu verknüpfen.