VOLLE GRU-Einheit
c~t=tanh(Wc[Gr∗ct−1,xt]+bc)
Gu=σ(Wu[ct−1,xt]+bu)
Gr=σ(Wr[ct−1,xt]+br)
ct=Gu∗c~t+(1−Gu)∗ct−1
at=ct
LSTM-Einheit
c~t=tanh(Wc[at−1,xt]+bc)
Gu=σ(Wu[at−1,xt]+bu)
Gf=σ(Wf[at−1,xt]+bf)
Go=σ(Wo[at−1,xt]+bo)
ct=Gu∗c~t+Gf∗ct−1
at=Go∗tanh(ct)
Wie aus den Gleichungen ersichtlich ist, haben LSTMs ein separates Aktualisierungs- und ein Vergessungs-Gate. Dies macht LSTMs deutlich anspruchsvoller, gleichzeitig aber auch komplexer. Es gibt keine einfache Möglichkeit, zu entscheiden, welche für Ihren speziellen Anwendungsfall verwendet werden soll. Sie müssen immer alles Mögliche ausprobieren, um die Leistung zu testen. Da GRU jedoch einfacher als LSTM ist, benötigen GRUs viel weniger Zeit zum Trainieren und sind effizienter.
Credits: Andrew Ng