Ist bekannt, dass einige Optimierungsprobleme einem Zeitschritt entsprechen?


19

Betrachten Sie bei einem gewünschten Zustand y0 und einem Regularisierungsparameter βR das Problem, einen Zustand y und eine Steuerung u zu finden, um eine funktionale zu minimieren

12yy02+β2u2
Ay=u.
y,y0,uRnARn×n

Bilden der Lagrangian, sucht stationären Punkte, und die Beseitigung der Steuer erhalten wir die Bedingungen erster Ordnung Vor der Multiplikation mit in der ersten Gleichung und in der zweiten Gleichung können wir die normalen Gleichungen schreiben Wir können diese als einzelne Schritte von Rückwärts-Euler-Annäherungen an die Differentialgleichungen interpretieren. u

ATλ=y0yAy=1βλ
AATλ
(I+βAAT)λ=βAy0(I+βATA)y=y0
λb=AATλ+Ay0,λ(0)=0yb=ATAy,y(0)=y0
mit pseudotimestep .β

Meine Frage: Ist dieser Zusammenhang bekannt? Wird es bei Standardbehandlungen mit Zeitschritt oder Optimierung diskutiert? (Für mich scheint es eine Art intuitive Verbindung zwischen ihnen zu bieten.)

Die Idee scheint so einfach zu sein, dass sie wohl bekannt sein muss, aber weder das Durchsuchen der Literatur noch das Reden mit Menschen hat mir eine gute Quelle gegeben, in der dies diskutiert wird. Das nächste, was ich gefunden habe, ist ein Artikel von O. Scherzer und J. Weichert (J. Math Imaging Vision 12 (2000), S. 43-63), in dem der Zusammenhang im ersten Satz des Abstracts (!) Angegeben ist, aber nicht Geben Sie Referenzen an oder erkunden Sie die Verbindung in jeder Tiefe.

Im Idealfall suche ich eine Referenz, die nicht nur die Verbindung angibt, sondern auch einige Konsequenzen untersucht (man könnte sich zum Beispiel vorstellen, ein Optimierungsproblem mit einem billigen Euler-Vorwärtsschritt vorzubereiten).


1
Allgemein gesprochen (und wie Sie wahrscheinlich bereits wissen) sind Pseudozeit-Stepping-Ansätze bekannte Methoden zum Lösen algebraischer Gleichungen (wie das von Ihnen beschriebene KKT-System), indem das Problem so gewandelt wird, dass der stationäre Zustand einer Reihe von ODEs gefunden wird, in denen Die Zeitvariable ist wirklich eine Pseudozeit. Mir ist jedoch keine bestimmte Verbindung bekannt, die eine bestimmte Instanz der KKT-Bedingungen mit einem einzelnen Euler-Rückwärtsschritt in Verbindung bringt.
Geoff Oxberry

Abgesehen davon müssen Sie nur eine der beiden ODEs lösen , da Sie eine der notwendigen Bedingungen erster Ordnung verwenden können, um z. B. aus zu berechnen . λyλ
Christian Clason

Antworten:


17

Wie Jed Brown erwähnte, wird der Zusammenhang zwischen Gradientenabstieg in der nichtlinearen Optimierung und Zeitschritt von dynamischen Systemen mit einer gewissen Häufigkeit wiederentdeckt (verständlicherweise, da er eine sehr befriedigende Verbindung zum mathematischen Verstand darstellt, da er zwei scheinbar unterschiedliche Felder verbindet). Es stellt sich jedoch selten als nützliche Verbindung heraus, insbesondere in dem von Ihnen beschriebenen Kontext.

Bei inversen Problemen sind die Leute daran interessiert, die (schlecht gestellte) Operatorgleichung zu lösen, wobei nicht im Bereich von . (Ihr optimales Steuerungsproblem kann als eine Instanz davon mit und .) Mehrere Regularisierungsstrategien (wie Tikhonov oder Landweber) können als eine einzige Pseudozeit interpretiert werden Schritt einer bestimmten Klasse. Die Idee ist dann, die Interpretation des Regularisierungsparameters als Schrittlänge zu verwenden, um einige (adaptive, a posteriori) Auswahlregeln für den Parameter zu erhalten - ein grundlegendes Problem bei inversen Problemen - und möglicherweise mehrere Pseudozeitschritte zu machen nähern sich der wahren, unregelmäßigen Lösung (ähnlich wiey δ F F = A - 1 y δ = y 0F(u)=yδyδFF=A1yδ=y0numerische Fortsetzung ). Dies wird manchmal als kontinuierliche Regularisierung bezeichnet und normalerweise im Kontext von Level-Set-Methoden diskutiert. siehe zum Beispiel Kapitel 6.1 von Kaltenbacher, Scherzer, Neubauer: Iterative Regularisierungsmethoden für nichtlineare, schlecht gestellte Probleme (de Gruyter, 2008).

Ein zweiter Kontext, in dem diese Idee immer wieder auftaucht, ist die nichtlineare Optimierung: Betrachtet man einen Gradientenabstiegsschritt für , so ist dann können Sie dies als einen Vorwärts- Euler-Schritt für das dynamische System interpretieren. Wie Jed Brown betonte, ergibt dies auf den ersten Blick nur die nicht sehr überraschende Beobachtung, dass diese Methode konvergiert, vorausgesetzt, die sind klein genug. Der interessante Teil kommt, wenn man sich das dynamische System ansieht und fragt, welche Eigenschaften die stetige Lösung des sogenannten Gradientenflusses hatminxf(x)x ( t ) = - f ( x ( t ) ) ,

xk+1=xkγkf(xk),
x˙(t)=f(x(t)),x(0)=x0.
γkx(t)hat (oder sollte), unabhängig von der Gradientenabnahme, und ob dies nicht zu angemesseneren Zeitschritt- (und damit Optimierungs-) Methoden als bei Standard-Euler führt. Einige Beispiele aus meinem Kopf:
  1. Gibt es einen natürlichen Funktionsraum, in dem der Gradientenfluss lebt? Wenn ja, sollte Ihr Gradientenschritt aus dem gleichen Raum genommen werden (dh die Diskretisierung sollte übereinstimmen). Dies führt beispielsweise zur Berechnung von Riesz-Darstellungen des Gradienten in Bezug auf verschiedene innere Produkte (manchmal als Sobolev-Gradienten bezeichnet ) und in der Praxis zu vorkonditionierten Iterationen, die viel schneller konvergieren.

  2. Vielleicht sollte nicht zu einem Vektorraum gehören, sondern zu einer Mannigfaltigkeit (z. B. symmetrische positive bestimmte Matrizen), oder der Gradientenfluss sollte eine bestimmte Norm von beibehalten . In diesem Fall können Sie versuchen, strukturerhaltende Zeitschrittschemata anzuwenden (z. B. ein Zurückziehen in Bezug auf eine geeignete Lie-Gruppe oder einen geometrischen Integrator).xx

  3. Wenn nicht differenzierbar, sondern konvex ist, entspricht der Vorwärts-Euler-Schritt einer Subgradienten-Abstiegsmethode, die aufgrund von Einschränkungen der Schrittgröße sehr langsam sein kann. Andererseits entspricht ein impliziter Euler-Schritt einer Proximalpunktmethode , für die keine derartigen Einschränkungen gelten (und die daher beispielsweise in der Bildverarbeitung sehr populär geworden sind).f

  4. In ähnlicher Weise können solche Verfahren durch Extrapolationsschritte erheblich beschleunigt werden. Eine Möglichkeit, diese zu motivieren, besteht darin, zu beobachten, dass Standardmethoden erster Ordnung viele kleine Schritte in der Nähe von Minimierern ausführen müssen, weil die Gradientenrichtungen "oszillieren" (denken Sie an die Standardillustration, warum konjugierte Gradienten die steilste Abnahme übertreffen). Um dies zu beheben, kann die Iteration "gedämpft" werden, indem nicht ein dynamisches System erster Ordnung, sondern ein gedämpftes System zweiter Ordnung gelöst wird: für passend gewähltes . Bei richtiger Diskretisierung führt dies zu einer Iteration (bekannt als Polyaks Heavy-Ball-Methode ) der Form a 1 , a 2 α k a 1 , a 2

    a1x¨(t)+a2x˙(t)=f(x(t))
    a1,a2
    xk+1=xkγkf(xk)+αk(xkxk1)
    (wobei von ). Ähnliche Ideen existieren für Proximalpunktmethoden, siehe z. B. die Veröffentlichung http://arxiv.org/pdf/1403.3522.pdf von Dirk Lorenz und Thomas Pock.γk,αka1,a2

(Ich sollte hinzufügen, dass meines Wissens nach in den meisten Fällen die Interpretation als dynamisches System für die Ableitung oder den Konvergenznachweis des Algorithmus nicht unbedingt erforderlich war. Man könnte argumentieren, dass Ideen wie "implizit vs. explizit" oder Lie-Ableitungen sind eigentlich grundlegender als dynamische Systeme oder Gradientenabstiegsmethoden. Trotzdem schadet es nie, einen anderen Standpunkt zu haben, von dem aus man ein Problem betrachten kann.)


EDIT: Ich bin gerade auf ein hervorragendes Beispiel aus dem zweiten Kontext gestoßen, in dem die ODE-Interpretation verwendet wird, um Eigenschaften der extragradienten Methode von Nesterov abzuleiten und Verbesserungen vorzuschlagen: http://arxiv.org/pdf/1503.01243.pdf (Beachten Sie, dass dies auch so ist ein Beispiel für Jed Browns Standpunkt, in dem die Autoren den obigen Punkt 4 im Wesentlichen wiederentdecken, ohne anscheinend den Algorithmus von Polyak zu kennen.)

EDIT 2: Und wie weit Sie dies bringen können, erfahren Sie auf Seite 5 von http://arxiv.org/pdf/1509.03616v1.pdf .


Ich akzeptiere diese Antwort, weil der zweite Absatz die Frage, die ich stellen wollte, am direktesten beantwortet, aber ich mochte auch die Antwort von Jed Brown.
Andrew T. Barker

13

Obwohl ich die genaue Formulierung, die Sie hier niedergeschrieben haben, nicht gesehen habe, sehe ich immer wieder Gespräche, in denen die Leute eine Verbindung zur Integration eines vorübergehenden Systems "wiederfinden" und einen Algorithmus aufschreiben, der algebraisch gleichwertig mit einer Form oder ist eine andere von einer existierenden Gradientenabstiegs- oder Newton-ähnlichen Methode, und keine andere zu zitieren. Ich denke, es ist nicht sehr nützlich, da die Schlussfolgerung im Grunde genommen lautet: "Solange Sie genügend kleine Schritte unternehmen, konvergiert die Methode schließlich zu einem lokalen Minimum." Nun, 2014 jährt sich Philip Wolfe zum 45. Mal, um zu zeigen, wie man dies auf prinzipielle Weise macht. Es gibt auch eine gute Theorie, um eine q-quadratische oder q-superlineare Konvergenz aus einer pseudotransienten Fortsetzung und verwandten Methoden wie Levenberg-Marquardt zu erhalten.

Wenn Sie einen Fall dieser Wiederentdeckung mit einer Newton-ähnlichen Formulierung zum Lösen algebraischer Gleichungen (dh klassischer pseudotransienter Fortsetzungen) von einem Mathematiker mit mehr als 600 Artikeln wollen (vielleicht beweist er, dass Sie Dinge interessant finden), schauen Sie sich das an. Dynamical Systems Method "von AG Ramm [1].

Wenn die Intuition, die durch die Betrachtung eines vorübergehenden Systems gewonnen wurde, zu praktischen Algorithmen führen würde, die entweder schneller oder zuverlässiger sind, würden wir wahrscheinlich häufig zitierte Artikel zu diesem Thema finden. Ich denke, es ist kein Rätsel, dass Nocedal und Wright über 13000 Zitate haben, während Ramms Buch ungefähr 80 (meistens Selbstzitate) enthält.

[1] Ich kann Ihnen raten, Prof. Ramm nicht darüber zu informieren, dass sein DSM algebraisch mit etwas äquivalent ist, das seit Jahrzehnten in unzähligen technischen Paketen enthalten ist, oder dass Sie sich aus dem Raum schreien lassen. #gradstudentmemories


3
Könnte interessanter sein, wenn Sie ihm das jetzt sagen, Jed!
Bill Barth

0

Wenn ODE-Methoden zur Optimierung beitragen können, gibt es ein wirklich einfaches Beispielproblem, um dies zu zeigen?
Ein Strohmann: Gibt es einen ODE-Löser, der einen vernünftigen Job auf oder wie Christian Clason für die Rosenbrock-Funktion vorschlägt , in 2d oder 10d? Wenn das albern ist, hat jemand einen besseren Strohmann? (Beachten Sie, dass "vernünftig" und nicht "konkurrenzfähig mit den modernsten Optimierern" ist. Ich stelle mir vor, man muss die Schrittgröße / Toleranz verringern und vielleicht einen steifen Löser.)
x˙=f(x)
fx¨=βx˙αf(x)  
f

In der Praxis sind "zu große" Schritte viel problematischer als "zu kleine" - Schwingungen sind chaotisch.
Ich hätte naiv gedacht, dass die Kontrolltheorie helfen könnte. Numerische Rezepte p. 915 beschreibt
PI Adaptive Stepsize Control für ODEs, aber ich weiß nicht, ob dies in der Praxis verwendet wird.


Es scheint, dass Sie eine neue Frage als Antwort veröffentlichen ... Tangential verwandte Fragen sollten in separaten Fragen oder Kommentaren zu den gegebenen Antworten veröffentlicht werden.
Paul

@Paul, macht das überhaupt Sinn? Wenn ja, können Sie bitte einen Titel für eine neue Frage vorschlagen?
Denis

Ich bin verwirrt ... Ich könnte mich irren, aber Ihre Antwort scheint nicht wirklich die Frage des OP zu sein. Was genau ist die Botschaft, die Sie vermitteln möchten, und in welcher Beziehung steht sie zur ursprünglichen Frage?
Paul

@Paul, sorry ich bin nicht klar. Die Frage, wie ich sie verstehe, fragt nach einer Beziehung zwischen einem bestimmten Optimierungsproblem und Zeitsprung-Alias ​​ODE-Lösern. Christian Clason weist auf den direkten Zusammenhang zwischen Gradientenabstieg und einem bestimmten ODE-Löser (Forward-Euler) hin. Ich kommentiere, was ist eine einfache Testfunktion f (), die zeigt, wie sich ein ODE-Löser auf ein Minimum von f () zubewegt?
Denis
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.