Wie Jed Brown erwähnte, wird der Zusammenhang zwischen Gradientenabstieg in der nichtlinearen Optimierung und Zeitschritt von dynamischen Systemen mit einer gewissen Häufigkeit wiederentdeckt (verständlicherweise, da er eine sehr befriedigende Verbindung zum mathematischen Verstand darstellt, da er zwei scheinbar unterschiedliche Felder verbindet). Es stellt sich jedoch selten als nützliche Verbindung heraus, insbesondere in dem von Ihnen beschriebenen Kontext.
Bei inversen Problemen sind die Leute daran interessiert, die (schlecht gestellte) Operatorgleichung zu lösen, wobei nicht im Bereich von . (Ihr optimales Steuerungsproblem kann als eine Instanz davon mit und .) Mehrere Regularisierungsstrategien (wie Tikhonov oder Landweber) können als eine einzige Pseudozeit interpretiert werden Schritt einer bestimmten Klasse. Die Idee ist dann, die Interpretation des Regularisierungsparameters als Schrittlänge zu verwenden, um einige (adaptive, a posteriori) Auswahlregeln für den Parameter zu erhalten - ein grundlegendes Problem bei inversen Problemen - und möglicherweise mehrere Pseudozeitschritte zu machen nähern sich der wahren, unregelmäßigen Lösung (ähnlich wiey δ F F = A - 1 y δ = y 0F(u)=yδyδFF=A−1yδ=y0numerische Fortsetzung ). Dies wird manchmal als kontinuierliche Regularisierung bezeichnet und normalerweise im Kontext von Level-Set-Methoden diskutiert. siehe zum Beispiel Kapitel 6.1 von Kaltenbacher, Scherzer, Neubauer: Iterative Regularisierungsmethoden für nichtlineare, schlecht gestellte Probleme (de Gruyter, 2008).
Ein zweiter Kontext, in dem diese Idee immer wieder auftaucht, ist die nichtlineare Optimierung: Betrachtet man einen Gradientenabstiegsschritt für , so ist
dann können Sie dies als einen Vorwärts- Euler-Schritt für das dynamische System interpretieren.
Wie Jed Brown betonte, ergibt dies auf den ersten Blick nur die nicht sehr überraschende Beobachtung, dass diese Methode konvergiert, vorausgesetzt, die sind klein genug. Der interessante Teil kommt, wenn man sich das dynamische System ansieht und fragt, welche Eigenschaften die stetige Lösung des sogenannten Gradientenflusses hatminxf(x)≤ x ( t ) = - ≤ f ( x ( t ) ) ,
xk+1=xk−γk∇f(xk),
x˙(t)=−∇f(x(t)),x(0)=x0.
γkx(t)hat (oder sollte), unabhängig von der Gradientenabnahme, und ob dies nicht zu angemesseneren Zeitschritt- (und damit Optimierungs-) Methoden als bei Standard-Euler führt. Einige Beispiele aus meinem Kopf:
Gibt es einen natürlichen Funktionsraum, in dem der Gradientenfluss lebt? Wenn ja, sollte Ihr Gradientenschritt aus dem gleichen Raum genommen werden (dh die Diskretisierung sollte übereinstimmen). Dies führt beispielsweise zur Berechnung von Riesz-Darstellungen des Gradienten in Bezug auf verschiedene innere Produkte (manchmal als Sobolev-Gradienten bezeichnet ) und in der Praxis zu vorkonditionierten Iterationen, die viel schneller konvergieren.
Vielleicht sollte nicht zu einem Vektorraum gehören, sondern zu einer Mannigfaltigkeit (z. B. symmetrische positive bestimmte Matrizen), oder der Gradientenfluss sollte eine bestimmte Norm von beibehalten . In diesem Fall können Sie versuchen, strukturerhaltende Zeitschrittschemata anzuwenden (z. B. ein Zurückziehen in Bezug auf eine geeignete Lie-Gruppe oder einen geometrischen Integrator).xx
Wenn nicht differenzierbar, sondern konvex ist, entspricht der Vorwärts-Euler-Schritt einer Subgradienten-Abstiegsmethode, die aufgrund von Einschränkungen der Schrittgröße sehr langsam sein kann. Andererseits entspricht ein impliziter Euler-Schritt einer Proximalpunktmethode , für die keine derartigen Einschränkungen gelten (und die daher beispielsweise in der Bildverarbeitung sehr populär geworden sind).f
In ähnlicher Weise können solche Verfahren durch Extrapolationsschritte erheblich beschleunigt werden. Eine Möglichkeit, diese zu motivieren, besteht darin, zu beobachten, dass Standardmethoden erster Ordnung viele kleine Schritte in der Nähe von Minimierern ausführen müssen, weil die Gradientenrichtungen "oszillieren" (denken Sie an die Standardillustration, warum konjugierte Gradienten die steilste Abnahme übertreffen). Um dies zu beheben, kann die Iteration "gedämpft" werden, indem nicht ein dynamisches System erster Ordnung, sondern ein gedämpftes System zweiter Ordnung gelöst wird:
für passend gewähltes . Bei richtiger Diskretisierung führt dies zu einer Iteration (bekannt als Polyaks Heavy-Ball-Methode ) der Form
a 1 , a 2 α k a 1 , a 2
a1x¨(t)+a2x˙(t)=−∇f(x(t))
a1,a2xk+1=xk−γk∇f(xk)+αk(xk−xk−1)
(wobei von ). Ähnliche Ideen existieren für Proximalpunktmethoden, siehe z. B. die Veröffentlichung http://arxiv.org/pdf/1403.3522.pdf von Dirk Lorenz und Thomas Pock.γk,αka1,a2
(Ich sollte hinzufügen, dass meines Wissens nach in den meisten Fällen die Interpretation als dynamisches System für die Ableitung oder den Konvergenznachweis des Algorithmus nicht unbedingt erforderlich war. Man könnte argumentieren, dass Ideen wie "implizit vs. explizit" oder Lie-Ableitungen sind eigentlich grundlegender als dynamische Systeme oder Gradientenabstiegsmethoden. Trotzdem schadet es nie, einen anderen Standpunkt zu haben, von dem aus man ein Problem betrachten kann.)
EDIT: Ich bin gerade auf ein hervorragendes Beispiel aus dem zweiten Kontext gestoßen, in dem die ODE-Interpretation verwendet wird, um Eigenschaften der extragradienten Methode von Nesterov abzuleiten und Verbesserungen vorzuschlagen:
http://arxiv.org/pdf/1503.01243.pdf
(Beachten Sie, dass dies auch so ist ein Beispiel für Jed Browns Standpunkt, in dem die Autoren den obigen Punkt 4 im Wesentlichen wiederentdecken, ohne anscheinend den Algorithmus von Polyak zu kennen.)
EDIT 2: Und wie weit Sie dies bringen können, erfahren Sie auf Seite 5 von http://arxiv.org/pdf/1509.03616v1.pdf .