Intuitive Motivation für das BFGS-Update

Ich unterrichte eine Umfrageklasse zur numerischen Analyse und suche nach Motivation für die BFGS-Methode für Studenten mit begrenztem Hintergrund / Intuition in der Optimierung!

Ich habe zwar keine Zeit, konsequent zu beweisen, dass alles konvergiert, aber ich möchte eine angemessene Motivation dafür geben, warum das BFGS-Hessian-Update erscheinen könnte. Als Analogie (ist meine writeup Broyden Root - Findungsmethode hier ) kann mit der Frage , dass Ihre aktuelle Angleichung der Jacobi minimiert die Differenz motiviert werden $\|J_k-J_{k-1}\|^2_{\textrm{Fro}}$ mit dem alten Jacobi mit der Einschränkung , dass es berücksichtigt den letzten Sekanten: . $J_k(\vec x_k-\vec x_{k-1})=f(\vec x_k)-f(\vec x_{k-1})$

Ableitungen von BFGS-Updates wirken weitaus komplizierter und trüber! Insbesondere würde Ich mag sie nicht davon ausgehen , a priori , dass das Update Rang-2 oder nehmen eine besondere Form sein sollte. Gibt es für das BFGS-Hessian-Update eine kurze variantenhafte Motivation wie für Broyden?

optimization iterative-method nonlinear-programming

— Justin Solomon
quelle

Wenn Sie ein willkürliches Update zulassen, können Sie einfach das vollständige Hessische in Newtons Methode verwenden. Ein großer Rechenvorteil einer Aktualisierung mit niedrigem Rang besteht darin, dass Sie die Faktorisierung des ungefähren Hessischen sehr schnell aktualisieren können.

— Brian Borchers

Die Ableitung des BFGS ist intuitiver, wenn man (streng) konvexe Kostenfunktionen betrachtet:

Einige Hintergrundinformationen sind jedoch erforderlich: Angenommen, man möchte eine konvexe Funktion minimieren Angenommen, es gibt eine ungefähre Lösung . Dann approximiert man das Minimum von durch das Minimum der abgeschnittenen Taylor-Expansion Das heißt, man sucht nach so dass minimal ist und setzt . Die Berechnung des Gradienten von - "in Bezug auf " und das Setzen auf Null ergibt die Beziehung

f (x) \to \underset{x \in R^{n}}{Mindest} .

$f(x) \to \min_{x\in \mathbb R^n}.$

x_{k}

$x_k$

f

$f$

f (x_{k} + p) \approx f (x_{k}) + \nabla f (x_{k})^{T} p + \frac{1}{2} p^{T} H (x_{k}) p . (*)

$f(x_k+p) \approx f(x_k) +\nabla f(x_k)^Tp + \frac{1}{2}p^T H(x_k)p. \quad(*)$

p

$p$

(*)

$(*)$

x_{k + 1} := x_{k} + p

$x_{k+1} := x_k + p$

(*)

$(*)$

p

$p$

H (x_{k}) [x_{k + 1} - x_{k}] = \nabla f (x_{k + 1}) - \nabla f (x_{k}),

$H(x_k)[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k),$ wobei der "Jacobian des Gradienten" oder die Hessische Matrix ist.

H

$H$

Da die Berechnung und Inversion des Hessischen teuer ist ...

... eine kurze Antwort

(vgl. Broydens Update) könnte sein, dass das BFGS-Update in einer intelligent gewählten gewichteten Frobenius-Norm minimiert , unterliegen $H_{k+1}^{-1}$

‖ H_{k}^{- 1} - H^{- 1} ‖_{W}

$\|H_k^{-1} - H^{-1}\|_W$

$H[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k)$ - dafür ist man da - und
$H^T = H$ , weil der Hessische symmetrisch ist.

Dann ist die Wahl des Gewichts in ~~als Inverse des~~ gemittelten Hessischen , vgl. Hier für die Anweisung, aber ohne Beweis, gibt die BFGS-Aktualisierungsformel an (mit ). $W$ $\|H\|_W := \|W^{1/2}HW^{1/2}\|_F$ $G:=\int_0^1 H(x_k + \tau p) d\tau$ $\alpha_k = 1$

Die wichtigsten Punkte sind:

Man versucht, die Lösung für die tatsächlichen Kosten durch die Lösung für eine quadratische Approximation zu approximieren
Die Berechnung des Hessischen und seines Inversen ist teuer. Man bevorzugt einfache Updates.
Das Update wird eher für das Inverse als für das eigentliche Hessische optimal gewählt .
Dass es sich um ein Rang-2-Update handelt, ist eine Folge der besonderen Wahl der Gewichte in der Frobenius-Norm.

Eine längere Antwort sollte enthalten, wie die Gewichte ausgewählt werden, wie dies bei nicht konvexen Problemen funktioniert (wenn eine Krümmungsbedingung auftritt, die eine Skalierung der Suchrichtung erfordert ) und wie die Formel für die Aktualisierung tatsächlich abgeleitet wird. Eine Referenz finden Sie hier . $p$

— Jan
quelle

Vielen Dank, das ist großartig (und mehr oder weniger das, was ich aufgrund der Diskussion in Nocedal & Wright erwartet hatte). Die Frage, die ich noch habe, lautet: Warum wählen wir und die Norm so, wie wir es tun? Ich verstehe, dass es mit Einheiten zu tun hat, aber es gibt viele Möglichkeiten, und Normen zu wählen, die dies tun.

W

$W$

W

$W$

— Justin Solomon

Ja stimmt. Ich weiß es nicht. Eine Antwort ist, dass es die einfach zu berechnende und gut funktionierende Update-Formel gibt. Historisch gesehen war dieser Ansatz für das Update - das Minimieren des Unterschieds im Update - der von Shanno. Es war ein Schiedsrichter (Goldfarb), der feststellte, dass eine bestimmte Auswahl der Gewichte zur Formel von Broyden und Fletcher führt. Siehe diese Doktorarbeit Historische Entwicklung der BFGS-Sekantenmethode ... für die Intuitionen der Entwickler der BFGS. Alle drei Ansätze sind jedoch recht abstrakt.

— Jan

Interessant, danke für die Anleitung! Meine aktuelle Zusammenfassung (mit einigen mathematischen Fehlern, die Hilfe benötigen) ist hier: graphics.stanford.edu/courses/cs205a-13-fall/assets/notes/… (wenn Sie Ihre Hilfe gutschreiben möchten, gebe ich sie gerne weiter.) - Bitte senden Sie mir eine E-Mail mit den entsprechenden Kontaktinformationen)

— Justin Solomon

H (x_{k}) [x_{k + 1} - x_{k}] = \nabla f (x_{k + 1}) - \nabla f (x_{k})

$H(x_k)[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k)$

H (x_{k + 1}) [x_{k + 1} - x_{k}] = \nabla f (x_{k + 1}) - \nabla f (x_{k}) ?

$H(x_{k+1})[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k)?$

H_{k + 1} s_{k} = y_{k}

$H_{k+1}s_k =y_k$

s_{k} = x_{k + 1} - x_{k}, y_{k} = \nabla f_{k + 1} - \nabla f_{k}

$s_k=x_{k+1}-x_k, y_k=\nabla f_{k+1}-\nabla f_k$