[Anmerkung 5 April 2019: Eine neue Version des Papiers wurde auf arXiv mit vielen neuen Ergebnissen aktualisiert. Wir führen auch Backtracking-Versionen von Momentum und NAG ein und beweisen die Konvergenz unter den gleichen Voraussetzungen wie für Backtracking Gradient Descent.
Quellcodes sind auf GitHub unter folgendem Link verfügbar: https://github.com/hank-nguyen/MBT-optimizer
Wir haben die Algorithmen für die Anwendung auf DNN verbessert und erzielen eine bessere Leistung als moderne Algorithmen wie MMT, NAG, Adam, Adamax, Adagrad, ...
Das Besondere an unseren Algorithmen ist, dass sie automatisch ablaufen. Sie müssen die Lernraten nicht wie üblich manuell anpassen. Unsere automatische Feinabstimmung unterscheidet sich von Adam, Adamax, Adagrad usw. Weitere Details finden Sie in der Zeitung.
]
Basierend auf den jüngsten Ergebnissen: In meiner gemeinsamen Arbeit in diesem Artikel https://arxiv.org/abs/1808.05160
f
Auf dieser Grundlage haben wir eine neue Methode für das Tiefenlernen vorgeschlagen, die dem aktuellen Stand der Technik entspricht und keine manuelle Feinabstimmung der Lernraten erfordert. (Auf den Punkt gebracht , besteht die Idee darin, dass Sie eine gewisse Zeit lang einen Rückverfolgungsgradientenabstieg ausführen, bis Sie feststellen, dass sich die Lernraten, die sich mit jeder Iteration ändern, stabilisieren. Wir erwarten diese Stabilisierung, insbesondere an einem kritischen Punkt, der ist C ^ 2 und ist aufgrund des oben erwähnten Konvergenzergebnisses nicht entartet. Zu diesem Zeitpunkt wechseln Sie zur Standardmethode für die Gradientenabnahme. Weitere Informationen finden Sie in der zitierten Veröffentlichung. Diese Methode kann auch auf andere optimale Algorithmen angewendet werden .)
PS: Bezüglich Ihrer ursprünglichen Frage zur Standardmethode der Gradientenabnahme, meines Wissens nur für den Fall, dass die Ableitung der Karte global Lipschitz ist und die Lernrate klein genug ist, dass die Standardmethode der Gradientenabnahme nachweislich konvergiert. [Wenn diese Bedingungen nicht erfüllt sind, gibt es einfache Gegenbeispiele, die zeigen, dass kein Konvergenzergebnis möglich ist, siehe den zitierten Aufsatz für einige.] In dem oben zitierten Aufsatz haben wir argumentiert, dass auf lange Sicht die Methode des Rückverfolgungsgradientenabfalls angewendet wird die Standardmethode zur Gradientenabnahme, die erklärt, warum die Standardmethode zur Gradientenabnahme in der Praxis normalerweise gut funktioniert.