Hier bezieht sich die Antwort auf das Verschwinden und Explodieren von Verläufen, die sigmoidähnliche Aktivierungsfunktionen hatten, aber Relueinen Nachteil haben und deren erwarteter Wert sind. Es gibt keine Begrenzung für die Ausgabe von Reluund daher ist der erwartete Wert nicht Null. Ich erinnere mich an die Zeit vor der Popularität Relu, tanhdie unter Experten für maschinelles Lernen am beliebtesten war sigmoid. Der Grund war, dass der erwartete Wert von tanhgleich Null war und es half, in tieferen Schichten zu lernen, schneller in einem neuronalen Netz zu sein. Reluhat diese Eigenschaft nicht, aber warum funktioniert es so gut, wenn wir seinen derivativen Vorteil beiseite legen. Darüber hinaus denke ich, dass das Derivat auch betroffen sein kann. Weil die Aktivierungen (Ausgabe vonRelu) sind an der Berechnung der Fortschreibungsregeln beteiligt.
CNNNormalisierung ist die Ausgabe der relunicht üblich? Zumindest habe ich das noch nie gesehen.