Per Definition ist Relu max(0,f(x))
. Dann ist sein Gradient definiert als :
1 if x > 0 and 0 if x < 0
.
Würde dies nicht bedeuten, dass der Gradient immer 0 ist (verschwindet), wenn x <0 ist? Warum sagen wir dann, dass Relu nicht unter dem Problem des Verschwindens des Gradienten leidet?