Kürzlich habe ich einen Artikel von Yann Dauphin et al. Identifizierung und Angriff auf das Sattelpunktproblem bei der hochdimensionalen nichtkonvexen Optimierung , bei der ein interessanter Abstiegsalgorithmus namens " Sattelfreies Newton" eingeführt wird , der genau auf die Optimierung des neuronalen Netzwerks zugeschnitten zu sein scheint und nicht daran zu leiden hat, an Sattelpunkten hängen zu bleiben wie Methoden erster Ordnung als Vanille SGD.
Das Papier stammt aus dem Jahr 2014, es ist also nichts Neues, aber ich habe nicht gesehen, dass es "in the wild" verwendet wird. Warum wird diese Methode nicht angewendet? Ist die hessische Berechnung für reale Probleme / Netzwerke zu unerschwinglich? Gibt es überhaupt eine Open-Source-Implementierung dieses Algorithmus, die möglicherweise mit einigen der wichtigsten Deep-Learning-Frameworks verwendet werden kann?
Update Februar 2019: Eine Implementierung ist ab sofort verfügbar: https://github.com/dave-fernandes/SaddleFreeOptimizer )