Als «activation-function» getaggte Fragen


1
Warum ReLU besser ist als die anderen Aktivierungsfunktionen
Hier bezieht sich die Antwort auf das Verschwinden und Explodieren von Verläufen, die sigmoidähnliche Aktivierungsfunktionen hatten, aber Relueinen Nachteil haben und deren erwarteter Wert sind. Es gibt keine Begrenzung für die Ausgabe von Reluund daher ist der erwartete Wert nicht Null. Ich erinnere mich an die Zeit vor der Popularität …

2
Was ist die GELU-Aktivierung?
Ich habe BERT-Artikel durchgearbeitet, in dem GELU (Gaußsche Fehler- Lineareinheit ) verwendet wird, wobei die Gleichung wie folgt lautet: G EL U( x ) = x P( X≤ x ) = x Φ ( x ) .GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).das entspricht Könnten Sie die Gleichung vereinfachen …

1
Unterschied der Aktivierungsfunktionen in neuronalen Netzen im Allgemeinen
Ich habe die Aktivierungsfunktionstypen für neuronale Netze untersucht. Die Funktionen selbst sind recht einfach, aber der Anwendungsunterschied ist nicht ganz klar. Es ist vernünftig, je nach gewünschter binärer / kontinuierlicher Ausgabe zwischen logischen und linearen Funktionen zu unterscheiden, aber was ist der Vorteil der Sigmoid-Funktion gegenüber der einfachen linearen Funktion? …

3
Wie verwende ich LeakyRelu als Aktivierungsfunktion in der Sequenz DNN in Keras? Wenn es besser funktioniert als Relu?
Wie verwendet man LeakyRelu als Aktivierungsfunktion in der Sequenz DNN in Keras? Wenn ich etwas Ähnliches schreiben möchte wie: model = Sequential() model.add(Dense(90, activation='LeakyRelu')) Was ist die Lösung? Setzen Sie LeakyRelu ähnlich wie Relu? Die zweite Frage lautet: Was ist die beste allgemeine Einstellung zum Einstellen der Parameter von LeakyRelu? …

4
Kann das Problem des verschwindenden Gradienten gelöst werden, indem die Eingabe von tanh mit einem Koeffizienten multipliziert wird?
Nach meinem Verständnis tritt das Problem des verschwindenden Gradienten beim Training neuronaler Netze auf, wenn der Gradient jeder Aktivierungsfunktion kleiner als 1 ist, so dass das Produkt dieser Gradienten sehr klein wird, wenn Korrekturen durch viele Schichten zurückpropagiert werden. Ich weiß, dass es andere Lösungen wie eine Gleichrichteraktivierungsfunktion gibt , …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.