Wann wird die normale Initialisierung (He oder Glorot) über die gleichmäßige Initialisierung angewendet? Und welche Auswirkungen hat die Batch-Normalisierung?


51

Ich wusste, dass das Residual Network (ResNet) die normale Initialisierung populär machte. In ResNet wird die normale He-Initialisierung verwendet , während die erste Ebene die einheitliche He-Initialisierung verwendet.

Ich habe das ResNet-Papier und das "Delving Deep into Rectifiers" -Papier (He-Initialisierungspapier) durchgesehen, aber ich habe keine Erwähnung für normales Init vs. uniformes Init gefunden.

Ebenfalls:

Durch die Batch-Normalisierung können wir viel höhere Lernraten verwenden und bei der Initialisierung weniger vorsichtig sein.

In der Zusammenfassung des Stapelnormalisierungspapiers heißt es, dass die Stapelnormalisierung es uns ermöglicht, weniger vorsichtig mit der Initialisierung umzugehen.

ResNet selbst achtet immer noch darauf, wann normales Init oder uniformes Init verwendet werden soll (anstatt nur mit dem uniformem Init zu arbeiten).

Damit:

  • Wann wird die normalverteilte Initialisierung (He oder Glorot) über die einheitliche Initialisierung verwendet?
  • Was sind normalverteilte Initialisierungseffekte bei der Batch-Normalisierung?

Notizen beiseite:

  • Es reimt sich darauf, normales Init mit Batch-Normalisierung zu verwenden, aber ich habe kein Papier gefunden, das diese Tatsache stützt.
  • Ich wusste, dass ResNet He init anstelle von Glorot init verwendet, da He init in einem tiefen Netzwerk besser funktioniert.
  • Ich habe Glorot Init gegen He Init verstanden .
  • Meine Frage ist zu Normal vs Uniform init.

Antworten:


34

Das normale vs uniform init scheint in der Tat ziemlich unklar zu sein.

Wenn wir uns nur auf die Initialisierungspapiere von Glorot und He beziehen , verwenden beide eine ähnliche theoretische Analyse: Sie finden eine gute Varianz für die Verteilung, aus der die Anfangsparameter gezogen werden. Diese Varianz ist an die verwendete Aktivierungsfunktion angepasst und wird ohne explizite Berücksichtigung der Art der Verteilung abgeleitet. Als solche gelten ihre theoretischen Schlussfolgerungen für jede Art von Verteilung der ermittelten Varianz. Tatsächlich wird im Glorot-Papier eine gleichmäßige Verteilung verwendet, während im He-Papier eine Gauß-Verteilung gewählt wird. Die einzige "Erklärung" für diese Wahl im He-Papier ist:

Jüngste tiefe CNNs werden hauptsächlich durch Zufallsgewichte aus Gaußschen Verteilungen initialisiert

mit einem Verweis auf AlexNet Papier . Es wurde zwar etwas später als Glorots Initialisierung veröffentlicht, aber es gibt keine Rechtfertigung für die Verwendung einer Normalverteilung.

Tatsächlich scheinen sie in einer Diskussion über Keras Issues Tracker auch ein wenig verwirrt zu sein und im Grunde könnte es nur eine Frage der Präferenz sein ... (dh hypotetisch würde Bengio eine gleichmäßige Verteilung bevorzugen, während Hinton normale bevorzugen würde ...) In der Diskussion gibt es einen kleinen Benchmark, der die Glorot-Initialisierung unter Verwendung einer einheitlichen und einer Gauß-Verteilung vergleicht. Am Ende scheint es, dass die Uniform gewinnt, aber es ist nicht wirklich klar.

In der Originalarbeit von ResNet heißt es nur, dass für alle Ebenen ein Gaußscher He-Init verwendet wurde. Ich konnte nicht herausfinden, wo geschrieben steht, dass für die erste Ebene ein einheitlicher He-Init verwendet wurde. (Vielleicht könnten Sie einen Verweis darauf teilen?)

Was die Verwendung von Gauß-Init mit Batch-Normalisierung betrifft, so ist der Optimierungsprozess bei BN weniger anfällig für Initialisierung, daher ist dies nur eine Konvention, die ich sagen würde.


Ich habe das falsch verstanden. Sie haben Recht, dass ResNet überhaupt keine einheitliche Initialisierung verwendet. Ich stehe korrigiert.
Rilut

0

1
Bitte vermeiden Sie es, nur Links zu posten. Jeder Link kann nach einer Weile nicht mehr funktionieren und neue Leser können die Antwort nicht mehr überprüfen. Sie können einen Link posten, aber immer auch eine Zusammenfassung des wichtigsten Teils als Text hinzufügen.
Tasos

@Tasos Kommentar gut zur Kenntnis genommen. Es gab einfach zu viele Informationen, um sie zusammenzufassen. Deshalb habe ich stattdessen den Link gepostet und verstehe, dass Links kaputt sind. Vielen Dank.
Rocksyne
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.