Warum nicht immer die ADAM-Optimierungstechnik verwenden?

13

Es scheint, dass der Optimierer für die adaptive Momentschätzung (Adam) fast immer besser funktioniert (schneller und zuverlässiger, wenn ein globales Minimum erreicht wird), wenn die Kostenfunktion beim Trainieren neuronaler Netze minimiert wird.

Warum nicht immer Adam benutzen? Warum sollte man sich überhaupt die Mühe machen, RMSProp oder Impulsoptimierer zu verwenden?

neural-network optimization

— PyRsquared
quelle

1

Ich glaube nicht, dass es einen strengen, formalisierten Weg gibt, um eine der beiden Aussagen zu unterstützen. Es ist alles rein empirisch, da die Fehleroberfläche unbekannt ist. Als Faustregel gilt, dass ADAM rein aus m-Erfahrung dort gut funktioniert, wo andere fehlschlagen (Instanzensegmentierung), wenn auch nicht ohne Nachteile (Konvergenz ist nicht monoton)

— Alex

2

Adam konvergiert schneller. SGD ist langsamer, verallgemeinert aber besser. Am Ende hängt alles von Ihren besonderen Umständen ab.

— Agcala

14

Hier ist ein Blog-Beitrag, in dem ein Artikel besprochen wird, in dem behauptet wird, SGD sei ein besser verallgemeinerter Adapter als ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

Es ist oft sinnvoll, mehrere Methoden (ein Ensemble) zu verwenden, da jede Methode eine Schwäche aufweist.

— Christopher Klaus
quelle

4

Schauen Sie sich auch diesen Beitrag an, in dem Sie verschiedene Optimierer für den Verlaufsabstieg vergleichen. Wie Sie unten sehen können, ist Adam eindeutig nicht der beste Optimierer für einige Aufgaben, da viele besser zusammenlaufen.

— M Sef
quelle

Nur zur Veranschaulichung: In dem verlinkten Artikel erwähnen sie einige der Mängel von ADAM und präsentieren AMSGrad als Lösung. Sie kommen jedoch zu dem Schluss, dass es (zum Zeitpunkt des Schreibens) nicht schlüssig ist, ob AMSGrad ADAM in der Praxis übertrifft.

— Lus