Zwei übliche Aktivierungsfunktionen, die beim tiefen Lernen verwendet werden, sind die hyperbolische Tangentenfunktion und die Sigmoidaktivierungsfunktion. Ich verstehe, dass die hyperbolische Tangente nur eine Neuskalierung und Übersetzung der Sigmoidfunktion ist:
.
Gibt es einen signifikanten Unterschied zwischen diesen beiden Aktivierungsfunktionen und insbesondere wann ist eine der anderen vorzuziehen ?
Mir ist klar, dass in einigen Fällen (wie beim Schätzen von Wahrscheinlichkeiten) Ausgaben im Bereich von bequemer sind als Ausgaben im Bereich von . Ich möchte wissen, ob es andere Unterschiede als die Zweckmäßigkeit gibt, die die beiden Aktivierungsfunktionen unterscheiden.