In dieser Antwort werde ich zwei interessante und relevante Artikel untersuchen, die in den Kommentaren angesprochen wurden. Vorher werde ich versuchen, das Problem zu formalisieren und einige der Annahmen und Definitionen zu beleuchten. Ich beginne mit einem Artikel von Lee et al.
Wir versuchen, eine nicht konvexe Funktion zu minimieren , die unten begrenzt ist. Wir verlangen, dass es zweimal differenzierbar ist. Wir verwenden einen Gradientenabstiegsalgorithmus der Form:f: R.d→ R.
.xxt + 1= xxt- α ∇ f( xxt)
Zusätzlich haben wir folgende Anforderung:
∥ ∇ f( xx1) - ∇ f( xx2) ∥ ≤ ℓ ∥ xx1- xx2∥ ,für alle xx1, xx2
Das heißt, wir verlangen, dass unsere Funktion in ihrer ersten Ableitung Lipschitz ist. Auf Englisch bedeutet dies, dass sich unser Gradient nirgendwo in der Domäne zu schnell ändern kann. Diese Annahme stellt sicher, dass wir eine Schrittgröße so wählen können, dass wir niemals divergierende Schritte erhalten.ℓ
Denken Sie daran, dass ein Punkt ein strenger Sattel ist, wenn und und . Wenn alle Eigenwerte des Hessischen das gleiche Vorzeichen haben, ist der Punkt ein Minimum (wenn sie positiv sind) oder ein Maximum (wenn sie negativ sind). Wenn es 0 Eigenwerte gibt, wird dies als entartet bezeichnet und es handelt sich nicht um einen strengen Sattel. ∇ f ( xxxλ min ( ∇ 2 f ( x)∇ f( xx )=0 λ max ( ∇ 2 f ( xλMindest( ∇2f( xx ) ) <0λmax( ∇2f( xx ) ) >0
Das Papier zeigt, dass mit den obigen Annahmen zusammen mit der Annahme, dass alle Sattelpunkte der Funktion streng gesattelt sind, ein Gradientenabstieg garantiert auf ein Minimum konvergiert.
Der Beweis ist ziemlich technisch, aber die Intuition ist folgende: Definiere eine Menge , wobei ein Sattelpunkt ist. Ich mag diese Notation überhaupt nicht. Was sie versuchen , zu erhalten , ist , dass die Menge der Startwerte für die der Gradient Karte ist sendet zu . Einfacher ausgedrückt ist es die Menge der zufälligen Initialisierungen, die letztendlich zu einem Sattel konvergieren. xW.s( xxs) = { xx : limkGk( xx ) = xxs}} Wg: R d → R d xxxsW.G: R.d→ R.dxxxkxxs
Ihre Argumentation stützt sich auf den Satz der stabilen Mannigfaltigkeit. Mit den obigen Annahmen und einer Reihe von esoterischen Berechnungen schließen sie, dass die Menge das Maß Null sein muss, das heißt, es besteht keine Wahrscheinlichkeit, dass ein Punkt, der zu einem Sattelpunkt konvergiert, zufällig initialisiert wird. Da wir wissen, dass der Gradientenabstieg auf Funktionen des in den Annahmen beschriebenen Typs mit entsprechend kleinen Schrittgrößen irgendwann einen kritischen Punkt erreichen wird und wir jetzt (fast sicher) wissen, dass er niemals auf einem Sattel landen wird, wissen wir, dass er konvergiert ein Minimierer.W.s
Das zweite, neuere Papier von Reddi et al. Ich werde weniger detailliert diskutieren. Es gibt verschiedene Unterschiede. Erstens arbeiten sie nicht mehr in einem deterministischen Rahmen, sondern entscheiden sich für den praktisch relevanteren stochastischen Approximationsrahmen für eine endliche Summe (denken Sie an Stochastic Gradient Descent). Die Hauptunterschiede bestehen darin, dass die Schrittgröße zusätzliche Sorgfalt erfordert und der Gradient zu einer Zufallsvariablen wird. Außerdem lockern sie die Annahme, dass alle Sättel streng sind, und suchen nach einem stationären Punkt zweiter Ordnung. Das heißt, ein Punkt, bei dem
∥ ∇ ( f) ∥ ≤ ϵ ,und ,λMindest( ∇2f( xx ) ) ≥- ρ ϵ- -- -√
Wobei die Lipschitz-Konstante für den Hessischen ist. (Das heißt, zusätzlich zu der Anforderung, dass unser Gradient nicht zu schnell variiert, haben wir jetzt eine ähnliche Anforderung an unser Hessisches. Im Wesentlichen suchen die Autoren nach einem Punkt, der sowohl in der ersten als auch in der zweiten Ableitung wie ein Minimum aussieht.r h o
Die Methode, mit der sie dies erreichen, besteht darin, die meiste Zeit eine Variante (wählen Sie Ihren Favoriten) des stochastischen Gradientenabfalls zu verwenden . Aber wo immer sie auf einen Punkt stoßen, an dem , verwenden sie eine geeignet gewählte Methode zweiter Ordnung, um dem Sattel zu entkommen. Sie zeigen, dass sie durch Einbeziehen dieser Informationen zweiter Ordnung nach Bedarf zu einem stationären Punkt zweiter Ordnung konvergieren.λMindest( ∇2f( xx ) ) ≤0
Technisch gesehen handelt es sich um eine Gradientenmethode zweiter Ordnung, die unter das Dach von Algorithmen fallen kann, an denen Sie interessiert waren.
Dies ist ein sehr aktives Forschungsgebiet und ich habe viele wichtige Beiträge ausgelassen (ex Ge et al. ). Ich bin auch neu in diesem Thema, daher hat mir diese Frage die Möglichkeit gegeben, nachzuschauen. Bei Interesse setze ich die Diskussion gerne fort.
*** Geeignet gewählt bedeutet einer, von dem gezeigt wird, dass er zu einem stationären Punkt zweiter Ordnung konvergiert. Sie verwenden die kubisch regulierte Newton-Methode von Nesterov und Polyak.