Hier bezieht sich die Antwort auf das Verschwinden und Explodieren von Verläufen, die sigmoid
ähnliche Aktivierungsfunktionen hatten, aber Relu
einen Nachteil haben und deren erwarteter Wert sind. Es gibt keine Begrenzung für die Ausgabe von Relu
und daher ist der erwartete Wert nicht Null. Ich erinnere mich an die Zeit vor der Popularität Relu
, tanh
die unter Experten für maschinelles Lernen am beliebtesten war sigmoid
. Der Grund war, dass der erwartete Wert von tanh
gleich Null war und es half, in tieferen Schichten zu lernen, schneller in einem neuronalen Netz zu sein. Relu
hat diese Eigenschaft nicht, aber warum funktioniert es so gut, wenn wir seinen derivativen Vorteil beiseite legen. Darüber hinaus denke ich, dass das Derivat auch betroffen sein kann. Weil die Aktivierungen (Ausgabe vonRelu
) sind an der Berechnung der Fortschreibungsregeln beteiligt.
CNN
Normalisierung ist die Ausgabe der relu
nicht üblich? Zumindest habe ich das noch nie gesehen.