Deep-Learning-Literatur steckt voller cleverer Tricks bei der Verwendung nicht konstanter Lernraten beim Gradientenabstieg. Dinge wie Exponential Decay, RMSprop, Adagrad usw. sind einfach zu implementieren und in jedem Deep-Learning-Paket verfügbar, scheinen jedoch außerhalb neuronaler Netze nicht zu existieren. Gibt es einen Grund dafür? Wenn es den Menschen einfach egal ist, gibt es einen Grund, warum wir uns nicht außerhalb neuronaler Netze kümmern müssen?