Ich habe theano zum Experimentieren mit LSTMs verwendet und mich gefragt, welche Optimierungsmethoden (SGD, Adagrad, Adadelta, RMSprop, Adam usw.) für LSTMs am besten funktionieren. Gibt es Forschungsarbeiten zu diesem Thema?
Hängt die Antwort auch von der Art der Anwendung ab, für die ich das LSTM verwende? In diesem Fall verwende ich LSTMs für die Textklassifizierung (wobei der Text zuerst in Wortvektoren konvertiert wird).
Wären die Antworten für RNNs identisch oder unterschiedlich? Hinweise auf Forschungsarbeiten oder persönliche Einsichten sind jederzeit willkommen!
LSTMs scheinen ziemlich leistungsfähig zu sein, und ich bin daran interessiert, mehr darüber zu erfahren, wie man sie am besten einsetzt.