3
Gradientenabstieg bei nicht konvexen Funktionen
Welche Situationen kennen wir, in denen gezeigt werden kann, dass der Gradientenabstieg für nicht konvexe Funktionen konvergiert (entweder zu einem kritischen Punkt oder zu einem lokalen / globalen Minimum)? Für SGD zu nicht konvexen Funktionen wurde hier eine Art von Beweis überprüft: http://www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf