Es scheint, dass der Optimierer für die adaptive Momentschätzung (Adam) fast immer besser funktioniert (schneller und zuverlässiger, wenn ein globales Minimum erreicht wird), wenn die Kostenfunktion beim Trainieren neuronaler Netze minimiert wird.
Warum nicht immer Adam benutzen? Warum sollte man sich überhaupt die Mühe machen, RMSProp oder Impulsoptimierer zu verwenden?