Warum sind Derivate zweiter Ordnung bei der konvexen Optimierung nützlich?

18

Ich denke, dies ist eine grundlegende Frage, die mit der Richtung des Gradienten selbst zu tun hat, aber ich suche nach Beispielen, bei denen Methoden 2. Ordnung (z. B. BFGS ) effektiver sind als eine einfache Gradientenabnahme.

optimization

— Bar
quelle

3

Ist es zu einfach zu beobachten, dass "Finde den Scheitelpunkt eines Paraboloids" eine viel bessere Annäherung an das Problem "Finde ein Minimum" ist als "Finde das Minimum dieser linearen Funktion" (das natürlich kein Minimum hat, weil es ist)? linear)?

20

Hier ist ein gemeinsamer Rahmen für die Interpretation von Gradientenabstieg und Newtons Methode. Dies ist möglicherweise eine nützliche Methode, um den Unterschied als Ergänzung zu @ Sycoraxs Antwort zu betrachten. (BFGS nähert sich Newtons Methode an. Ich werde hier nicht weiter darauf eingehen.)

Wir minimieren die Funktion $f$ , wissen aber nicht, wie wir das direkt machen sollen. Also nehmen wir stattdessen eine lokale Approximation an unserem aktuellen Punkt $x$ und minimieren diese.

Newtons Methode approximiert die Funktion unter Verwendung einer Taylor-Expansion zweiter Ordnung: wobei die Steigung von am Punkt und das Hessische bei . Es tritt dann an und wiederholt.

f (y) \approx N_{x} (y) : = f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \nabla^{2} f (x) (y - x),

$f(y) \approx N_x(y) := f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y - x)^T \, \nabla^2 f(x) \, (y - x) ,$

\nabla f (x)

$\nabla f(x)$

f

$f$

x

$x$

\nabla^{2} f (x)

$\nabla^2 f(x)$

x

$x$

\arg min_{y} N_{x} (y)

$\arg\min_y N_x(y)$

Gradientenabstieg, der nur den Gradienten und nicht das Hessische hat, kann nicht einfach eine Annäherung erster Ordnung machen und diese minimieren, da es, wie @Hurkyl feststellte, kein Minimum gibt. Stattdessen definieren wir eine Schrittgröße und einen Schritt zu . Beachten Sie jedoch, dass $t$ $x - t \nabla f(x)$ Somit minimiert der Gradientenabstieg eine Funktion

\begin{aligned} x - t \nabla f (x) & = \arg max_{y} [f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2 t} ‖ y - x ‖^{2}] \\ = \arg max_{y} [f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \frac{1}{t} ich (y - x)] . \end{aligned}

$\begin{align} x - t \,\nabla f(x) &= \arg\max_y \left[f(x) + \nabla f(x)^T (y - x) + \tfrac{1}{2 t} \lVert y - x \rVert^2\right] \\&= \arg\max_y \left[f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y-x)^T \tfrac{1}{t} I (y - x)\right] .\end{align}$

G_{x} (y) : = f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \frac{1}{t} ich (y - x) .

$G_x(y) := f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y-x)^T \tfrac{1}{t} I (y - x).$

Gradientenabstieg ist also ähnlich wie bei der Newtonschen Methode, aber anstatt die Taylor-Expansion zweiter Ordnung zu verwenden, geben wir vor, dass der Hessische Wert . Diesesist oft eine wesentlich schlechtere Annäherung anals, und daher macht der Gradientenabstieg oft viel schlechtere Schritte als die Newtonsche Methode. Dies wird natürlich dadurch ausgeglichen, dass jeder Schritt des Gradientenabfalls so viel billiger zu berechnen ist als jeder Schritt der Newtonschen Methode. Was besser ist, hängt ganz von der Art des Problems, Ihren Rechenressourcen und Ihren Genauigkeitsanforderungen ab. $\tfrac1t I$ $G$ $f$ $N$

Betrachten Sie das Beispiel von @ Sycorax zur Minimierung eines quadratischen

f (x) = \frac{1}{2} x^{T} EIN x + d^{T} x + c

$f(x) = \tfrac12 x^T A x + d^T x + c$

$N = f$

G_{x} (y) = f (x) + (EIN x + d)^{T} y + \frac{1}{2} (x - y)^{T} \frac{1}{t} ich (x - y)

$G_x(y) = f(x) + (A x + d)^T y + \tfrac12 (x - y)^T \tfrac1t I (x-y)$

x

$x$

A

$A$

— Dougal
quelle

1

Dies ähnelt der Antwort von @ Aksakal , ist jedoch genauer.

— Dougal

1

(+1) Dies ist eine großartige Ergänzung!

— Sycorax sagt Reinstate Monica

17

Im Wesentlichen besteht der Vorteil einer Methode der zweiten Ableitung wie der Newtonschen darin, dass sie die Qualität einer quadratischen Terminierung aufweist. Dies bedeutet, dass eine quadratische Funktion in einer endlichen Anzahl von Schritten minimiert werden kann. Eine Methode wie der Gradientenabstieg hängt stark von der Lernrate ab. Dies kann dazu führen, dass die Optimierung entweder langsam konvergiert, weil sie um das Optimum herum springt, oder vollständig divergiert. Stabile Lernraten sind zu finden ... aber es muss der Hessische berechnet werden. Selbst wenn Sie eine stabile Lernrate verwenden, können Sie Probleme wie das Schwingen um das Optimum haben, dh Sie gehen nicht immer einen "direkten" oder "effizienten" Weg zum Minimum. Das Beenden kann daher viele Iterationen dauern, auch wennSie sind relativ nah dran. Die Konvergenz von BFGS und Newton kann schneller erfolgen, obwohl der Rechenaufwand für jeden Schritt höher ist.

Zu Ihrer Anfrage nach Beispielen: Angenommen, Sie haben die objektive Funktion

F (x) = \frac{1}{2} x^{T} EIN x + d^{T} x + c

$F(x)=\frac{1}{2}x^TAx+d^Tx+c$ Der Gradient ist

\nabla F (x) = EIN x + d

$\nabla F(x)=Ax+d$ und es in die steilste Abstiegsform mit konstanter Lernrate bringen

x_{k + 1} = x_{k} - α (EIN x_{k} + d) = (ich - α EIN) x_{k} - α d .

$x_{k+1}= x_k-\alpha(Ax_k+d) = (I-\alpha A)x_k-\alpha d.$

Dies wird stabil sein, wenn die Größen der Eigenvektoren von $I-\alpha A$ sind kleiner als 1. Wir können diese Eigenschaft verwenden, um zu zeigen, dass eine stabile Lernrate zufriedenstellend ist

α < \frac{2}{λ_{m ein x}},

$\alpha<\frac{2}{\lambda_{max}},$ wo

λ_{m a x}

$\lambda_{max}$ ist der größte Eigenwert von

A

$A$ . Die Konvergenzrate des Algorithmus mit dem steilsten Abfall ist durch den größten Eigenwert begrenzt und die Routine konvergiert am schnellsten in Richtung ihres entsprechenden Eigenvektors. Ebenso konvergiert es am langsamsten in Richtungen des Eigenvektors des kleinsten Eigenwerts. Wenn es eine große Diskrepanz zwischen großen und kleinen Eigenwerten für gibt

A

$A$ , Gradientenabstieg wird langsam sein. Irgendein

A

$A$ Mit dieser Eigenschaft konvergieren Sie langsam mit Gefälle.

Im spezifischen Kontext neuronaler Netze enthält das Buch Neural Network Design zahlreiche Informationen zu numerischen Optimierungsmethoden. Die obige Diskussion ist eine Zusammenfassung von Abschnitt 9-7.

— Sycorax sagt Reinstate Monica
quelle

Gute Antwort! Ich akzeptiere die Antwort von @Dougal, da ich denke, dass sie eine einfachere Erklärung liefert.

— Bar,

6

Bei der konvexen Optimierung approximieren Sie die Funktion als Polynom zweiten Grades in einem eindimensionalen Fall:

f (x) = c + β x + α x^{2}

$f(x)=c+\beta x + \alpha x^2$

In diesem Fall ist die zweite Ableitung

\partial^{2} f (x) / \partial x^{2} = 2 α

$\partial^2 f(x)/\partial x^2=2\alpha$

Wenn Sie die Derivate kennen, ist es einfach, die nächste Vermutung für das Optimum anzustellen:

vermuten = - \frac{β}{2 α}

$\text{guess}=-\frac{\beta}{2\alpha}$

Der multivariate Fall ist sehr ähnlich. Verwenden Sie nur Gradienten für Derivate.

— Aksakal
quelle

2

@Dougal hat schon eine tolle technische Antwort gegeben.

Die nicht mathematische Erklärung lautet, dass während die lineare Approximation (Ordnung 1) eine "Ebene" liefert, die tangential zu einem Punkt auf einer Fehleroberfläche ist, die quadratische Approximation (Ordnung 2) eine Oberfläche liefert, die die Krümmung der Fehleroberfläche umgibt.

Die Videos auf diesem Link leisten einen großartigen Beitrag zur Visualisierung dieses Konzepts. Sie zeigen Annäherungen an die Funktionsoberfläche in der Reihenfolge 0, 1 und 2 an, wodurch nur intuitiv überprüft wird, was die anderen Antworten mathematisch darstellen.

Auch ein guter Blogpost zum Thema (angewendet auf neuronale Netze) ist hier .

— Zhubarb
quelle