Gradientenabstieg bei nicht konvexen Funktionen

9

Welche Situationen kennen wir, in denen gezeigt werden kann, dass der Gradientenabstieg für nicht konvexe Funktionen konvergiert (entweder zu einem kritischen Punkt oder zu einem lokalen / globalen Minimum)?

Für SGD zu nicht konvexen Funktionen wurde hier eine Art von Beweis überprüft: http://www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf

— gradstudent
quelle

2

Dieses Dokument: arxiv.org/pdf/1602.04915.pdf könnte von Nutzen sein. Insbesondere: "Wenn [die Funktion] zweimal kontinuierlich differenzierbar ist und die strenge Satteleigenschaft erfüllt, konvergiert der Gradientenabstieg mit einer zufälligen Initialisierung und einer ausreichend kleinen konstanten Schrittgröße fast sicher gegen einen lokalen Minimierer oder eine negative Unendlichkeit"

— David Kozak,

Vielen Dank! Ich frage mich, ob das von Ihnen zitierte Papier in gewisser Weise schwächer ist als dieses neuere Ergebnis, arxiv.org/abs/1709.01434. Irgendwelche Ideen?

— Gradstudent

Praktischerweise ist dieses Papier bereits auf meiner Liste, um es diese Woche anzugehen, und ich werde mich mit einer richtigen Antwort bei Ihnen melden, sobald ich es verdaut habe.

— David Kozak

Vielen Dank! Freue mich auf eine Diskussion! : D Lassen Sie mich wissen, wenn Sie "kleine" Prototypen solcher Beweise für die Konvergenz bei nicht konvexem Gradientenabstieg kennen!

— Gradstudent

3

Siehe Anhang B1 unter https://web.stanford.edu/~boyd/cvxbook/ .

Die Funktion und die Einschränkung können in einem quadratisch beschränkten quadratischen Programm nicht konvex sein, und Sie können immer noch eine starke Dualität feststellen (dies ist garantiert, wenn eine technische Bedingung gilt, die als Slaters Einschränkungsqualifizierer bekannt ist).

Starke Dualität in schwachen Begriffen bedeutet, dass wir das Optimierungsproblem lösen können. Aus dem ursprünglichen Problem, das als primäres Problem bezeichnet wird, können Sie ein alternatives Problem formulieren, das als duales Problem bezeichnet wird. Die Lösung des doppelten Problems bietet eine Lösung, die in gewissem Sinne die "beste Untergrenze" für Ihre ursprünglichen Probleme darstellt

Bei vielen nicht konvexen Optimierungsproblemen besteht eine Lücke zwischen der ursprünglichen und der doppelten Lösung, dh die Untergrenze kann weit unter dem tatsächlichen optimalen Wert liegen (sogar negative Unendlichkeit). In einigen besonderen Fällen ist die Bindung eng. Diese Sonderfälle sind solche, in denen wir eine starke Dualität haben.

Der Algorithmus ist eine TECHNIK, mit der der optimale Punkt erreicht wird. Die optimale Lösung und unsere Fähigkeit, sie zu finden, hängen von der GEOMETRIE des Problems ab (zu der die Dualität zu gelangen versucht). Die Analyse besagt, dass bei ordnungsgemäßer Einrichtung die Optimierung auf ein Minimum konvergiert.

Im Allgemeinen konvergiert der Gradientenabstieg zu einem stationären Punkt. Dieser Punkt kann ein lokales Minimum / globales Minimum / Sattelminimum sein. In nur wenigen nicht konvexen Fällen können wir garantieren, wohin es konvergiert

— Sid
quelle

Was ist ein QCQP und was bedeutet es, eine starke Dualität zu sehen?

— MachineEpsilon

@Sid Was hat das mit der Konvergenz des Gradientenabfalls zu tun, nach der ich frage?

— Gradstudent

Ich habe meine Antwort bearbeitet. Ich entschuldige mich für die knappe Antwort

— Sid

3

In dieser Antwort werde ich zwei interessante und relevante Artikel untersuchen, die in den Kommentaren angesprochen wurden. Vorher werde ich versuchen, das Problem zu formalisieren und einige der Annahmen und Definitionen zu beleuchten. Ich beginne mit einem Artikel von Lee et al.

Wir versuchen, eine nicht konvexe Funktion zu minimieren , die unten begrenzt ist. Wir verlangen, dass es zweimal differenzierbar ist. Wir verwenden einen Gradientenabstiegsalgorithmus der Form: $f: \mathbb{R}^d \to \mathbb{R}$

. $\pmb{x}_{t+1} = \pmb{x}_t - \alpha\nabla f(\pmb{x}_t)$

Zusätzlich haben wir folgende Anforderung:

$\| \nabla f(\pmb{x}_1)-\nabla f(\pmb{x}_2) \| \leq \ell \| \pmb{x}_1 - \pmb{x}_2 \|, \quad \text{for all } \pmb{x}_1, \pmb{x}_2$

Das heißt, wir verlangen, dass unsere Funktion in ihrer ersten Ableitung Lipschitz ist. Auf Englisch bedeutet dies, dass sich unser Gradient nirgendwo in der Domäne zu schnell ändern kann. Diese Annahme stellt sicher, dass wir eine Schrittgröße so wählen können, dass wir niemals divergierende Schritte erhalten. $\ell$

Denken Sie daran, dass ein Punkt ein strenger Sattel ist, wenn und und . Wenn alle Eigenwerte des Hessischen das gleiche Vorzeichen haben, ist der Punkt ein Minimum (wenn sie positiv sind) oder ein Maximum (wenn sie negativ sind). Wenn es 0 Eigenwerte gibt, wird dies als entartet bezeichnet und es handelt sich nicht um einen strengen Sattel. $\pmb{x}$ $\nabla f(\pmb{x}) = 0$ $\lambda_{\min}\left(\nabla^2 f(\pmb{x})\right) < 0$ $\lambda_{\max}\left(\nabla^2 f(\pmb{x})\right) > 0$

Das Papier zeigt, dass mit den obigen Annahmen zusammen mit der Annahme, dass alle Sattelpunkte der Funktion streng gesattelt sind, ein Gradientenabstieg garantiert auf ein Minimum konvergiert.

Der Beweis ist ziemlich technisch, aber die Intuition ist folgende: Definiere eine Menge , wobei ein Sattelpunkt ist. Ich mag diese Notation überhaupt nicht. Was sie versuchen , zu erhalten , ist , dass die Menge der Startwerte für die der Gradient Karte ist sendet zu . Einfacher ausgedrückt ist es die Menge der zufälligen Initialisierungen, die letztendlich zu einem Sattel konvergieren. $W^s(\pmb{x}^s) = \{\pmb{x} : \lim_k g^k(\pmb{x}) = \pmb{x}^s \}$ $\pmb{x}^s$ $W$ $g : \mathbb{R}^d \to \mathbb{R}^d$ $\pmb{x}_k$ $\pmb{x}^s$

Ihre Argumentation stützt sich auf den Satz der stabilen Mannigfaltigkeit. Mit den obigen Annahmen und einer Reihe von esoterischen Berechnungen schließen sie, dass die Menge das Maß Null sein muss, das heißt, es besteht keine Wahrscheinlichkeit, dass ein Punkt, der zu einem Sattelpunkt konvergiert, zufällig initialisiert wird. Da wir wissen, dass der Gradientenabstieg auf Funktionen des in den Annahmen beschriebenen Typs mit entsprechend kleinen Schrittgrößen irgendwann einen kritischen Punkt erreichen wird und wir jetzt (fast sicher) wissen, dass er niemals auf einem Sattel landen wird, wissen wir, dass er konvergiert ein Minimierer. $W^s$

Das zweite, neuere Papier von Reddi et al. Ich werde weniger detailliert diskutieren. Es gibt verschiedene Unterschiede. Erstens arbeiten sie nicht mehr in einem deterministischen Rahmen, sondern entscheiden sich für den praktisch relevanteren stochastischen Approximationsrahmen für eine endliche Summe (denken Sie an Stochastic Gradient Descent). Die Hauptunterschiede bestehen darin, dass die Schrittgröße zusätzliche Sorgfalt erfordert und der Gradient zu einer Zufallsvariablen wird. Außerdem lockern sie die Annahme, dass alle Sättel streng sind, und suchen nach einem stationären Punkt zweiter Ordnung. Das heißt, ein Punkt, bei dem $\|\nabla(f) \| \leq \epsilon, \quad \text{and}, \quad \lambda_{\min}\left(\nabla^2 f(\pmb{x})\right)\geq -\sqrt{\rho\epsilon}$

Wobei die Lipschitz-Konstante für den Hessischen ist. (Das heißt, zusätzlich zu der Anforderung, dass unser Gradient nicht zu schnell variiert, haben wir jetzt eine ähnliche Anforderung an unser Hessisches. Im Wesentlichen suchen die Autoren nach einem Punkt, der sowohl in der ersten als auch in der zweiten Ableitung wie ein Minimum aussieht. $rho$

Die Methode, mit der sie dies erreichen, besteht darin, die meiste Zeit eine Variante (wählen Sie Ihren Favoriten) des stochastischen Gradientenabfalls zu verwenden . Aber wo immer sie auf einen Punkt stoßen, an dem , verwenden sie eine geeignet gewählte Methode zweiter Ordnung, um dem Sattel zu entkommen. Sie zeigen, dass sie durch Einbeziehen dieser Informationen zweiter Ordnung nach Bedarf zu einem stationären Punkt zweiter Ordnung konvergieren. $\lambda_{\min}\left(\nabla^2 f(\pmb{x})\right)\leq 0$

Technisch gesehen handelt es sich um eine Gradientenmethode zweiter Ordnung, die unter das Dach von Algorithmen fallen kann, an denen Sie interessiert waren.

Dies ist ein sehr aktives Forschungsgebiet und ich habe viele wichtige Beiträge ausgelassen (ex Ge et al. ). Ich bin auch neu in diesem Thema, daher hat mir diese Frage die Möglichkeit gegeben, nachzuschauen. Bei Interesse setze ich die Diskussion gerne fort.

*** Geeignet gewählt bedeutet einer, von dem gezeigt wird, dass er zu einem stationären Punkt zweiter Ordnung konvergiert. Sie verwenden die kubisch regulierte Newton-Methode von Nesterov und Polyak.

— David Kozak
quelle

1

Danke für die Antwort! Zwei Kommentare (a) Ich denke, Reddi et. al. ist ein besseres Ergebnis als Lee et. al. weil es eine Konvergenz mit einer Rate gebunden ist und nicht nur ein asymptotisches Ergebnis. (b) Es gibt dieses Papier, das zu behaupten scheint (und so aussieht), besser zu sein als alle diese Papiere, opt-ml.org/papers/OPT2017_paper_16.pdf

— gradstudent

Einverstanden, und es ist mathematisch viel einfacher. Das Lee-Ergebnis ist jedoch wegen seines einzigartigen Ansatzes interessant. Ich denke, dass aus dieser Richtung weitere Fortschritte erzielt werden, wenn wir nach mehr Möglichkeiten suchen, hochdimensionale nichtkonvexe Oberflächen zu verstehen. Ich werde das Papier überprüfen, auf das Sie verwiesen haben, danke dafür!

— David Kozak

Fügen wir noch eine Frage hinzu: Angesichts dieser Reddi et. al. Papier gibt es noch eine Relevanz für das bekanntere Papier der gleichen Gruppe, arxiv.org/abs/1603.06160

— gradstudent

Es gibt definitiv Relevanz, da die Gradientenabstiegsvariante, die sie in ihrer neueren Arbeit verwenden, SVRG ist. Wir könnten diese Frage schließen und neu beginnen, damit die Community den Vorteil einer Teilnahme erhält. Ich habe das von Ihnen empfohlene Papier über das Abstract hinaus noch nicht gelesen, aber es steht auf der Liste und kann weitere Fragen aufwerfen.

— David Kozak

2

Ich werde versuchen, den Teil der Frage zu beantworten, wann die Konvergenz des Gradientenabfalls zu einem kritischen Punkt erfolgt.

Die Arbeit "Konvergenz von Abstiegsmethoden für semi-algebraische und zahme Probleme: proximale Algorithmen, Vorwärts-Rückwärts-Aufteilung und regulierte Gauß-Seidel-Methoden"

von Attouch, Bolte und Svaiter,

zeigt, dass, wenn die Zielfunktion die Kurdyka-Lojasiewicz (KL) -Ungleichung erfüllt, GD und andere Abstiegsmethoden tatsächlich zu einem Minimierer konvergieren. Beachten Sie, dass der KL-Zustand äußerst allgemein, aber schwer zu erfassen ist. Funktionen, die KL erfüllen, sind beispielsweise durch semi-algebraische Funktionen gegeben (wiederum sehr allgemein, aber kein einfacher Begriff).

Um ein paar Intuitionen über diese Begriffe zu vermitteln, werde ich versuchen, weniger vage, aber auch nicht zu technisch zu sein. Eine Funktion erfüllt die KL-Bedingung an einem kritischen Punkt wenn eine Funktion (beachten Sie, dass ich einige Bedingungen ), so dass für alle so dass für einige . Die Intuition ist, dass es eine Funktion die unsere interessierende Funktion parametrisiert. $f$ $\bar{x}$ $\phi$

| | \nabla (ϕ \circ f) (x) | | \geq 1

$|| \nabla (\phi \circ f)(x)|| \ge 1$

x

$x$

f (\bar{x}) < f (x) < r

$f(\bar{x}) < f(x) < r$

r

$r$

ϕ

$\phi$

f

$f$ so, dass es um den kritischen Punkt scharf ist (die Ableitung ist von Null weg begrenzt). In gewissem Sinne bedeutet dies, dass die Funktion um nicht zu flach sein darf .

\bar{x}

$\bar{x}$

Die Semialgebrizität ist dagegen etwas schwieriger. Das Feld, das es untersucht, wird auch als zahme Geometrie bezeichnet . Ich denke, der Name zahm fängt die Essenz sehr gut ein. Zu dieser Klasse gehörende Funktionen können nicht willkürlich "wild" sein.

— xel
quelle

Vielen Dank! Lass mich das nachschlagen! Können Sie uns freundlicherweise einige Anschauungen zu diesem Zustand hinzufügen?

— Gradstudent

Ich habe meine Antwort mit etwas Intuition aktualisiert. Ich hoffe es hilft.

— xel