Welche Optimierungsmethoden eignen sich am besten für LSTMs?

19

Ich habe theano zum Experimentieren mit LSTMs verwendet und mich gefragt, welche Optimierungsmethoden (SGD, Adagrad, Adadelta, RMSprop, Adam usw.) für LSTMs am besten funktionieren. Gibt es Forschungsarbeiten zu diesem Thema?

Hängt die Antwort auch von der Art der Anwendung ab, für die ich das LSTM verwende? In diesem Fall verwende ich LSTMs für die Textklassifizierung (wobei der Text zuerst in Wortvektoren konvertiert wird).

Wären die Antworten für RNNs identisch oder unterschiedlich? Hinweise auf Forschungsarbeiten oder persönliche Einsichten sind jederzeit willkommen!

LSTMs scheinen ziemlich leistungsfähig zu sein, und ich bin daran interessiert, mehr darüber zu erfahren, wie man sie am besten einsetzt.

— Apfelwein
quelle

7

Ironischerweise sind die besten Optimierer für LSTMs selbst LSTMs: https://arxiv.org/abs/1606.04474 Lernen durch Gradientenabstieg durch Gradientenabstieg.

Die Grundidee besteht darin, ein neuronales Netzwerk (speziell hier ein LSTM-Netzwerk) zu verwenden, um die Gradienten des ursprünglichen Netzwerks gemeinsam zu lernen und zu lehren. Es heißt Meta-Lernen.

Diese von Jürgen Schmidhuber im Jahr 2000 vorgeschlagene Methode hat sich erst kürzlich als besser erwiesen als die anderen Optimierer im RNN-Training. (Eine schöne Grafik finden Sie auf dem Originalpapier.)

— Anona112
quelle

Können Sie uns mitteilen, was der Link sagt?

— mdewey

zu Ihrem Vergnügen geändert. Da die ursprüngliche Frage lautete: "Welche Optimierungsmethoden funktionieren am besten für LSTMs?" Nicht "Wie funktionieren die besten Optimierungsmethoden für LSTMs?"

— Anona112,

4

Es gibt im Allgemeinen keine eindeutigen Hinweise darauf, welche Optimierungsmethode in welchem Szenario angewendet werden soll. Das Verhalten dieser Methoden unter verschiedenen Szenarien wurde analysiert, es ist jedoch nichts Schlüssiges dabei. Wenn du in dieses Zeug eintauchen willst, empfehle ich: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimierung.pdf

Um Ihnen zumindest eine gewisse Antwort zu geben, würde ich argumentieren, dass häufig die Konfiguration Ihrer Optimierungsroutine wichtiger ist als die eigentliche Routine.

Außerdem empfehle ich Ihnen, in den Unterlagen nachzusehen, welche Techniken verwendet werden. Alex Graves aus dem Beispiel hat in den meisten seiner Veröffentlichungen über das Generieren von Sequenzen RMSprop verwendet.

— Sjoerd
quelle