Ich habe über den Adam-Optimierer für Deep Learning gelesen und bin in dem neuen Buch Deep Learning von Bengio, Goodfellow und Courville auf folgenden Satz gestoßen:
Adam wird allgemein als ziemlich robust gegenüber der Auswahl von Hyperparametern angesehen, obwohl die Lernrate manchmal von der vorgeschlagenen Standardeinstellung geändert werden muss.
Wenn dies zutrifft, ist es eine große Sache, da die Suche nach Hyperparametern (zumindest nach meiner Erfahrung) für die statistische Leistung eines Deep-Learning-Systems sehr wichtig sein kann. Meine Frage ist also, warum ist Adam Robust so wichtig? Speziell und β 2 ?
Ich habe das Adam-Papier gelesen und es liefert keine Erklärung, warum es mit diesen Parametern arbeitet oder warum es robust ist. Rechtfertigen sie das anderswo?
Während ich das Papier lese, scheint es auch so zu sein, dass die Anzahl der Hyperparameter, die sie ausprobiert haben, sehr gering ist, für nur 2 und für β 2 nur 3. Wie kann dies eine gründliche empirische Studie sein, wenn es nur mit 2x3 Hyperparametern funktioniert? ?