Schneller oder niedriger zu sein ist ein relativer Begriff und muss im Kontext dessen verstanden werden, womit es verglichen wird. Um dies zu verstehen, müssen wir zunächst überlegen, wie der Gradientenabstieg mit anderen Arten der Aktivierungsfunktion funktioniert.
Beispiel-Setup
n
z1=W1x+b1
a1=f(z1)
...
zn=Wnan−1+bn
y=f(zn)
f
Tanh und Sigmoid - verschwindender Gradient
ff′(x)∈(−1,1)x
yW1
dfdW1=dfdWndWndWn−1...dW2dW1
0<i<n
dXidXi−1=f′(Wi−1ai−2+bi−1)×ai−2∈(−1,1)
(−1,1)f′ai−2(−1,1)
dfdW1ndfdW1
RELU und Dead Neuron
ai>0f
dXidXi−1=ai−2
dfdW1=a1a2a3...an−1
x>0x<0
Undichte RELU und ELU
x>0x<1
Ich zitiere das Originalpapier für den Unterschied zwischen den beiden.
LReLUs und PReLUs haben zwar ebenfalls negative Werte, gewährleisten jedoch keinen rauschstabilen Deaktivierungszustand. ELUs sättigen sich mit kleineren Eingaben auf einen negativen Wert und verringern dadurch die vorwärts propagierte Variation und Information.
Die intuitive Erklärung lautet wie folgt. In der ELU wurde der Gradient immer dann, wenn x klein genug wurde, sehr klein und gesättigt (genauso wie bei Tanh und Sigmoid). Der kleine Gradient bedeutet, dass sich der Lernalgorithmus auf die Abstimmung anderer Gewichte konzentrieren kann, ohne sich um die Interaktivität mit den gesättigten Neuronen sorgen zu müssen.
Betrachten Sie ein Polynom vom Grad 2, das als glatte Oberfläche in einem 3D-Raum dargestellt werden kann. Um das lokale Minimum zu finden, muss ein Gradientenabstiegsalgorithmus die Steilheit sowohl in x- als auch in y-Richtung berücksichtigen. Wenn der Gradient sowohl in x- als auch in y-Richtung negativ ist, ist nicht klar, welcher Weg besser ist. Es ist also sinnvoll, irgendwo dazwischen einen Weg zu wählen. Aber was ist, wenn wir bereits wissen, dass alles in x-Richtung flach ist (Gradienten Null), dann ist es ein Kinderspiel, sich für die y-Richtung zu entscheiden. Mit anderen Worten, Ihr Suchraum wird viel kleiner.
Spezielle Notiz
Beim tiefen Lernen gibt es viele Behauptungen ohne ausreichende empirische Beweise oder tiefes Verständnis, um dies zu unterstützen. Im Fall von ELU kann es zwar zutreffen, dass dies für einige Datensätze zu einer schnelleren Konvergenz führt, es kann jedoch auch zutreffen, dass der Lernalgorithmus für einen anderen Datensatz auf dem lokalen Maximum bleibt. Wir wissen einfach noch nicht genug.