Warum ist SQP für nichtlineare Programmierung besser als Augmented Lagrangian?

In dem technischen Bericht über Galahad [1] geben die Autoren im Zusammenhang mit allgemeinen nichtlinearen Programmierproblemen an:

Unserer Meinung nach gab es nie wirklich Zweifel daran, dass SQP-Methoden (Sequential Quadratic Programming) auf lange Sicht erfolgreicher sein würden [als Augmented Lagrangian-Methoden] ...

Was könnte die Grundlage für diesen Glauben sein? Gibt es theoretische Ergebnisse, die darauf hindeuten, dass SQP-Methoden schneller / zuverlässiger sein sollten als Augmented Lagrangian-Methoden?

[1] Galahad, eine Bibliothek threadsicherer Fortran 90-Pakete für die nichtlineare Optimierung in großem Maßstab von Gould, Orban und Toint

nonlinear-programming

— cjordan1
quelle

SQP-Methoden erfordern, dass das Ziel zweimal differenzierbar ist (vgl. Https://en.m.wikipedia.org/wiki/Sequential_quadratic_programming ), während Augmented Lagrangians auch dann arbeiten, wenn das Ziel nicht differenzierbar ist (daher ihr jüngstes Wiederaufleben in der Bildverarbeitungsgemeinschaft, vgl. Ftp: //arachne.math.ucla.edu/pub/camreport/cam09-05.pdf )

Ich weiß nichts über die Galahad-Software, aber wenn differenzierbare Optimierungsprobleme gelöst werden sollen, wird es wahrscheinlich viel besser sein, wenn eine Methode verwendet wird, mit der die Zielfunktion unterschieden werden kann.

— dranxo
quelle

Es ist nicht wahr, dass SQP doppelt differenzierbare Zielfunktionen erfordert. Sie können einfach eine Methode mit einer geringeren Konvergenzrate erhalten, wenn die Zielfunktion weniger differenzierbar ist, aber das ist genau das gleiche wie bei erweiterten Lagrange-Methoden.

— Wolfgang Bangerth

In Bezug auf äußere Iterationen sollte SQP gewinnen, da es Informationen der zweiten Ableitung enthält, während dies bei erweiterten Lagrange-Methoden wie ADMM nicht der Fall ist.

Beachten Sie jedoch, dass bei jeder Iteration für diese Methoden ein lineares System gelöst werden muss. Um einen fairen Vergleich zu ermöglichen, müssen Sie berücksichtigen, wie einfach diese Systeme zu lösen sind.

Bei erweiterten Lagrange-Methoden (alternierend) löst jede Iteration, die Sie lösen, so etwas wie wobei ein Vorwärtsoperator direkt aus der bekannten Zielfunktion ist und normalerweise einfacher zu handhaben ist oder Voraussetzung, und ist der Strafparameter. (z. B. ist Ihr Problem , das einigen Regularisierungen und Einschränkungen unterliegt).

(A^{T} A + ρ I) x = b,

$(A^TA + \rho I)x = b,$

A

$A$

ρ

$\rho$

min_{x} | | A x - b | |^{2}

$\min_x ||Ax-b||^2$

Für SQP-Methoden lösen Sie etwas wie wobei der Hessische (oder eine Annäherung davon) ist, der normalerweise nur implizit in Bezug auf seine Wirkung auf Vektoren verfügbar ist, und der Gradient ist. Das Hessische enthält nicht nur , sondern auch eine Kombination anderer Matrizen und Matrixinversen, die sich aus der Linearisierung der Randbedingungen und der Regularisierung ergeben.

H x = g,

$Hx = g,$

H

$H$

g

$g$

A

$A$

Das Vorkonditionieren von Hessen ist ein ziemlich kniffliges Geschäft und viel weniger erforscht als das Vorkonditionieren von Vorwärtsproblemen. Eine Standardmethode besteht darin, die hessische Inverse mit L-BFGS zu approximieren. Dies ist jedoch von begrenzter Wirksamkeit, wenn die hessische Inverse einen hohen Rang hat. Eine andere beliebte Methode besteht darin, den Hessischen als Summe einer niedrigrangigen Matrix plus einer leicht zu invertierenden Matrix zu approximieren, dies hat jedoch auch eine begrenzte Wirksamkeit bei schwierigen Problemen. Andere beliebte hessische Schätztechniken basieren auf spärlichen Näherungen, aber Kontinuumsprobleme haben oft hessische Näherungen mit schlechten spärlichen Näherungen.

— Nick Alger
quelle

+1, obwohl ich vor pauschalen Aussagen warnen möchte (womit ich diese Antwort nicht speziell meine). Beispielsweise beinhaltet bei der PDE-beschränkten Optimierung das Anwenden von häufig das Lösen einer nichtlinearen PDE, während durch Lösen von zwei linearen PDEs angewendet werden kann - was erheblich billiger (und leichter vorzukonditionieren) sein kann, wenn die ursprüngliche PDE böse ist.

A

$A$

H

$H$

— Christian Clason

Also, durch Lösen zwei PDEs angewendet werden, sondern gelten benötigen Sie 2 PDEs lösen pro kryolv Iteration in Ihrem Löser. Auf der anderen Seite ist ein Vorwärtsoperator, so dass normalerweise überhaupt keine PDE-Lösungen erforderlich sind. Typischerweise kennt man die Matrix tatsächlich explizit, z. B. eine 5-Punkt-Schablone mit endlicher Differenz auf einem Netz. Vorkonditionierer für können verwendet werden, um Vorkonditionierer für , aber es ist schwieriger, sie zur Vorkonditionierung von .

H

$H$

H^{- 1}

$H^{-1}$

A

$A$

A

$A$

A

$A$

A^{T} A + ρ I

$A^TA + \rho I$

H

$H$

— Nick Alger

Wenn ein linearer Vorwärtsoperator ist (was bei nichtlinearer PDE-beschränkter Optimierung nicht der Fall ist), dann sind Sie natürlich richtig. Andernfalls erfordert das Anwenden von eine lineare PDE-Lösung pro Newton-Iteration (oder Festpunktiteration), gefolgt von einer anderen für (die immer linear ist). Welche der beiden Methoden weniger Gesamtarbeit erfordert (z. B. nach Anzahl der linearen PDE-Lösungen), hängt stark vom spezifischen Problem ab. Ich sage nur verschiedene Werkzeuge für verschiedene Jobs.

A

$A$

A

$A$

A^{T}

$A^T$

— Christian Clason

Ich stimme verschiedenen Tools für verschiedene Jobs zu. Das Gauß-Newton-Hessische für das PDE-beschränkte Optimierungsproblem, an das ich - so dass - , und der vollständige Hessische ist dies plus andere Begriffe. Hier enthält zwei Inversen und enthält zwei Inversen innerhalb einer Inversen.

min_{q, u} \frac{1}{2} | | C u - y | |^{2} + \frac{α}{2} | | R q | |^{2}

$\min_{q,u} \frac{1}{2}||Cu - y||^2 + \frac{\alpha}{2}||Rq||^2$

A u = q

$Au=q$

H = A^{- T} C^{T} C A^{- 1} + α R^{T} R

$H = A^{-T}C^TCA^{-1} + \alpha R^T R$

H

$H$

H^{- 1}

$H^{-1}$

— Nick Alger

Und ich hatte die Einschränkung im Auge (z. B. ordnet der Lösung von , die in der Parameteridentifikation oder Topologieoptimierung erscheint).

S (q) = u

$S(q) = u$

S

$S$

q

$q$

u

$u$

- \nabla \cdot (q \nabla u) = f

$-\nabla\cdot(q\nabla u) = f$

— Christian Clason