Theoretische Untersuchung von Koordinatenabstiegsmethoden

14

Ich bereite einige Kursmaterialien zu Heuristiken für die Optimierung vor und beschäftige mich mit Methoden der Koordinatenabnahme. Die Einstellung ist hier eine multivariate Funktion , die Sie optimieren möchten. die Eigenschaft auf eine einzelne Variable beschränkt ist, ist die Optimierung einfach. Der Koordinatenabstieg erfolgt also durch Durchlaufen der Koordinaten, Fixieren aller außer der gewählten und Minimieren entlang dieser Koordinate. Irgendwann kommen Verbesserungen nur langsam zum Stillstand und Sie beenden. $f$ $f$

Meine Frage ist: Gibt es eine theoretische Studie zu Methoden des koordinierten Abstiegs, die sich mit Konvergenzraten und den Eigenschaften von , mit denen die Methode gut funktioniert, und so weiter? Offensichtlich erwarte ich keine allgemein gehaltenen Antworten, aber Antworten, die auf Fälle hinweisen, in denen die Heuristik gut funktioniert, wären hilfreich. $f$

Übrigens: Die alternierende Optimierungstechnik, die für Mittel verwendet wird, kann als Beispiel für den Koordinatenabstieg angesehen werden, und der Frank-Wolfe-Algorithmus scheint verwandt zu sein (ist jedoch kein direktes Beispiel für das Framework). $k$

— Suresh Venkat
quelle

Zumindest, wie in Ken Clakrsons Artikel kenclarkson.org/sga/p.pdf beschrieben , ist Frank-Wolfe sehr, sehr ähnlich. Der einzige Unterschied scheint zu sein, dass Sie in FW die beste Koordinate auswählen, auf die Sie herabsteigen möchten. Es hat die gleiche Sparsity-Eigenschaft, die Matus erwähnt.

— Sasho Nikolov

2

Sebastien Bubeck hat kürzlich eine Monographie über konvexe Optimierung und Iterationskomplexität für verschiedene Methoden veröffentlicht. Kann ein nützlicher Ort sein, um zu schauen. blogs.princeton.edu/imabandit/2014/05/16/…

— Chandra Chekuri

24

(Editiere Notizen: Ich habe das reorganisiert, nachdem ich in seiner Länge ausgeflippt bin.)

Literatur zum Thema Koordinatenabstieg kann etwas schwierig zu finden sein. Hier sind einige Gründe dafür.

Viele der bekannten Eigenschaften von Koordinatenmethoden werden in Umbrella-Theoremen für allgemeinere Abstiegsmethoden erfasst. Zwei Beispiele, unten angegeben, sind die schnelle Konvergenz unter starken Auswölbung (hold für jeden steilsten Abstieg) und die allgemeine Konvergenz dieser Methoden ( in der Regel bis Zoutendijk zugeschrieben). $l^p$
Die Benennung ist nicht Standard. Auch der Begriff "steilste Abfahrt" ist kein Standard. Möglicherweise haben Sie Erfolg, wenn Sie einen der Begriffe "zyklischer Koordinatenabstieg", "Koordinatenabstieg", "Gauß-Seidel", "Gauß-Southwell" googeln. Die Verwendung ist nicht konsistent.
Die zyklische Variante wird selten besonders erwähnt. Stattdessen wird in der Regel nur die beste Einzelwahl der Koordinate diskutiert. Dies gibt jedoch fast immer die zyklische Garantie, wenn auch mit einem zusätzlichen Faktor (Anzahl der Variablen): Dies liegt daran, dass die meisten Konvergenzanalysen mit einer Untergrenze für die Verbesserung eines einzelnen Schritts durchgeführt werden und Sie die zusätzlichen Koordinaten ignorieren können. Es scheint auch schwierig zu sein, etwas allgemeines darüber zu sagen, was zyklisch für Sie einkauft, so dass die Leute einfach die beste Koordinate machen und der Faktor normalerweise überprüft werden kann. $n$ $n$

Bewerten Sie unter starker Konvexität. Der einfachste Fall ist, dass Ihre Zielfunktion stark konvex ist. Hierbei haben alle Gradientenabstiegsvarianten die Rate . Dies belegt das Buch von Boyd & Vandenberghe. Der Beweis gibt zuerst das Ergebnis für Gradientenabfallsaktualisierung und verwendet dann Norm Äquivalenz das Ergebnis für die allgemeinen geben steilsten Abstieg. $\mathcal O(\ln (1/\epsilon))$ $l^p$

Einschränkungen. Ohne starke Konvexität muss man etwas vorsichtig sein. Sie haben nichts über Einschränkungen gesagt, und daher ist das Infimum im Allgemeinen möglicherweise nicht erreichbar. Ich werde kurz auf das Thema Einschränkungen eingehen, dass der Standardansatz (mit Abstiegsmethoden) darin besteht, jede Iteration auf Ihre Einschränkung zu projizieren, um die Machbarkeit aufrechtzuerhalten, oder Barrieren zu verwenden, um die Einschränkungen in Ihre Zielfunktion zu integrieren. Im Fall des ersteren weiß ich nicht, wie es mit dem Koordinatenabstieg spielt; Im letzteren Fall funktioniert die Koordinatenabsenkung einwandfrei, und diese Barrieren können stark konvex sein.

Genauer gesagt, um Methoden zu koordinieren, anstatt sie zu projizieren, sorgen viele Leute einfach dafür, dass die Koordinatenaktualisierung machbar bleibt: Dies ist beispielsweise genau der Fall beim Frank-Wolfe-Algorithmus und seinen Varianten (dh beim Lösen von SDPs).

Ich werde auch kurz darauf hinweisen, dass der SMO-Algorithmus für SVMs als Koordinatenabstiegsmethode angesehen werden kann, bei der Sie zwei Variablen gleichzeitig aktualisieren und dabei eine Machbarkeitsbeschränkung beibehalten. Die Auswahl der Variablen ist bei dieser Methode heuristisch, und daher sind die Garantien wirklich nur die zyklischen Garantien. Ich bin nicht sicher, ob dieser Zusammenhang in der Standardliteratur vorkommt. Ich habe die SMO-Methode aus Andrew Ngs Kursnotizen gelernt und festgestellt, dass sie ziemlich sauber sind.

$n$

$\mathcal O(\ln(1/\epsilon))$

Es gibt einige neuere Ergebnisse zum Koordinatenabstieg. Ich habe einige Dinge auf arXiv gesehen. Luo & tseng haben auch einige neuere Papiere. Aber das ist das Wichtigste.

$\sum_{i=1}^m g(\langle a_i, \lambda\rangle)$ $g$ $(a_i)_1^m$ $\lambda$ $\exp(1/\epsilon^2)$ $\mathcal O(1/\epsilon)$

Das Problem mit den genauen Updates. Es ist auch sehr häufig der Fall, dass Sie nicht über eine Einzelkoordinatenaktualisierung in geschlossener Form verfügen. Oder die genaue Lösung existiert einfach nicht. Aber zum Glück gibt es viele, viele Liniensuchmethoden, die im Grunde die gleichen Garantien wie eine exakte Lösung erhalten. Dieses Material befindet sich in nichtlinearen Standardprogrammtexten, beispielsweise in den oben genannten Büchern von Bertsekas oder Nocedal & Wright.

Vis a vis your second paragraph: wenn diese gut funktionieren. Erstens arbeiten viele der oben erwähnten Analysen für den Gradienten für den Koordinatenabstieg. Warum also nicht immer Koordinatenabstieg verwenden? Die Antwort ist, dass Sie für viele Probleme, bei denen Gradientenabstieg anwendbar ist, auch Newton-Methoden verwenden können, für die eine überlegene Konvergenz nachgewiesen werden kann. Ich kenne keinen Weg, um den Newton-Vorteil beim Koordinatenabstieg zu erzielen. Auch die hohen Kosten von Newton-Methoden können mit Quasinewton-Aktualisierungen gemindert werden (siehe zum Beispiel LBFGS).

$l^0$ $k$ $k$ $k$ $k$ $f$

— matus
quelle

2

Beeindruckend. Das ist eine wirklich umfassende Antwort. Vielen Dank !

— Suresh Venkat

2

Ich schlage vor, hier zu suchen, wir haben einige Arbeiten in diesem Bereich durchgeführt:

http://arxiv.org/abs/1107.2848

Prost

Peter

— Peter
quelle

2

Wir haben gerade einen Artikel über arXiv ( http://arxiv.org/abs/1201.1214 ) veröffentlicht, der allgemeine Untergrenzen für "statistische Algorithmen" für Optimierungsprobleme beweist, wobei jedes "Problem" seine eigene Untergrenze hat verschiedene Eigenschaften.

Der Koordinatenabstieg (und so ziemlich alles andere, was wir uns vorstellen können) kann als statistischer Algorithmus in unserem Framework angesehen werden. Hoffentlich enthält dieses Papier einige Ergebnisse, die für Sie von Interesse sein werden.

— Lev Reyzin
quelle

Cool. Werde es untersuchen.

— Suresh Venkat

2

Beachten Sie, dass "Konvergenzrate" bei der Optimierung normalerweise asymptotisches Verhalten bedeutet. Das heißt, die Rate gilt nur für die Nachbarschaft optimaler Lösungen. In diesem Sinne haben Luo & Tseng im Artikel "Über die Konvergenz der Methode des Koordinatenabfalls zur konvexen differenzierbaren Minimierung" lineare Konvergenzraten für einige nicht stark konvexe Zielfunktionen nachgewiesen.

Die nicht-asymptotische Konvergenzrate, auch bekannt als "Iterationskomplexität", ist im Allgemeinen nützlicher, um die Iterationszahlen von Minimierungsalgorithmen zu begrenzen. Für stark konvexe Zielfunktionen wird die Iterationskomplexität von zyklischen Koordinatenabstiegsmethoden bereits in Luo & Tsengs Fehlergrenzen- und Konvergenzanalyse praktikabler Abstiegsmethoden gezeigt: Ein allgemeiner Ansatz, wenn eine globale Fehlergrenze verwendet wird. Für nicht stark konvexe Probleme haben wir einige neue Ergebnisse in Bezug auf die Iterationskomplexität praktikabler Abstiegsmethoden für die konvexe Optimierung. Um genau zu sein, haben wir die Iterationskomplexität für zyklische Koordinatenabstiegsmethoden für Probleme wie die duale Form von SVMs und Gauß-Seidel-Methoden gezeigt. Darüber hinaus decken die Ergebnisse auch andere mögliche Abstiegsmethoden ab, einschließlich Gradientenabstieg und Freunde.

— Will Wang
quelle