LSTM wurde speziell erfunden, um das Problem des verschwindenden Gradienten zu vermeiden. Dies soll mit dem Constant Error Carousel (CEC) geschehen, das in der folgenden Abbildung (von Greff et al. ) Der Schleife um die Zelle entspricht .
(Quelle: deeplearning4j.org )
Und ich verstehe, dass dieser Teil als eine Art Identitätsfunktion angesehen werden kann, also ist die Ableitung eine und der Gradient bleibt konstant.
Was ich nicht verstehe ist, wie es aufgrund der anderen Aktivierungsfunktionen nicht verschwindet? Die Eingabe-, Ausgabe- und Vergessen-Gatter verwenden ein Sigmoid, dessen Ableitung höchstens 0,25 beträgt, und g und h waren traditionell tanh . Wie verschwindet das Zurückpropagieren durch diese, ohne dass der Gradient verschwindet?