Eingangsnormalisierung für ReLU-Neuronen


9

Nach "Efficient Backprop" von LeCun et al. (1998) ist es empfehlenswert, alle Eingaben so zu normalisieren, dass sie um 0 zentriert sind und im Bereich der maximalen zweiten Ableitung liegen. So würden wir zum Beispiel [-0.5,0.5] für die "Tanh" -Funktion verwenden. Dies soll den Fortschritt der Rückausbreitung unterstützen, wenn der Hessische stabiler wird.

Ich war mir jedoch nicht sicher, was ich mit Gleichrichterneuronen tun sollte, die max (0, x) sind. (Auch mit der Logistikfunktion seitdem würden wir so etwas wie [0.1,0.9] wollen, aber das ist nicht um 0 zentriert)

Antworten:


7

Nach meinem besten Wissen ist der jüngste Artikel von Google-Forschern das, wonach Sie suchen, am nächsten: Batch-Normalisierung: Beschleunigung des Deep Network-Trainings durch Reduzierung der internen Covariate-Verschiebung .

Chargennormalisierung

lyl=f(W.x+b)fW.,bx

Die Chargennormalisierung (BN) bewirkt Folgendes:

  1. W.x+bx^x^W.x+b
  2. x^γx^+β.
  3. y^l=f(γx^+β)

Also standardisiert BN die Aktivierungsausgaben "roh" (lesen Sie: bevor wir die Nichtlinearität anwenden) auf den Mittelwert Null, Varianz 1, und dann wenden wir eine erlernte affine Transformation an und schließlich wenden wir die Nichtlinearität an. In gewissem Sinne können wir dies so interpretieren, dass das neuronale Netzwerk eine geeignete parametrisierte Eingangsverteilung für die Nichtlinearität lernen kann.

γ,β

Affine Transformationsmotivation

βγ

Zuerst standardisieren

γ,βTatsächlich lernten sie eine Transformation, bei der sie die Identitätstransformation als Referenz oder Basis für den Vergleich verwendeten. Die Microsoft-Co-Autoren waren der Ansicht, dass diese Referenz oder Baseline dazu beitrug, das Problem vorzubereiten. Ich glaube nicht, dass es zu weit hergeholt ist, sich zu fragen, ob hier bei BN und dem ersten Standardisierungsschritt etwas Ähnliches passiert.

BN-Anwendungen

Ein besonders interessantes Ergebnis ist, dass das Google-Team mithilfe der Stapelnormalisierung ein Tanh-Inception-Netzwerk einrichten konnte, um auf ImageNet zu trainieren und wettbewerbsfähige Ergebnisse zu erzielen. Tanh ist eine sättigende Nichtlinearität, und es war schwierig, diese Arten von Netzwerken aufgrund ihres Problems mit Sättigungs- / Verschwindungsgradienten zum Lernen zu bringen. Bei Verwendung der Chargennormalisierung kann jedoch davon ausgegangen werden, dass das Netzwerk eine Transformation lernen konnte, die die Aktivierungsausgabewerte auf das nicht gesättigte Regime von tanh-Nichtlinearitäten abbildet.

Schlussbemerkungen

Sie beziehen sich sogar auf dasselbe Yann LeCun-Faktoid, das Sie als Motivation für die Chargennormalisierung erwähnt haben.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.