(Editiere Notizen: Ich habe das reorganisiert, nachdem ich in seiner Länge ausgeflippt bin.)
Literatur zum Thema Koordinatenabstieg kann etwas schwierig zu finden sein. Hier sind einige Gründe dafür.
Viele der bekannten Eigenschaften von Koordinatenmethoden werden in Umbrella-Theoremen für allgemeinere Abstiegsmethoden erfasst. Zwei Beispiele, unten angegeben, sind die schnelle Konvergenz unter starken Auswölbung (hold für jeden steilsten Abstieg) und die allgemeine Konvergenz dieser Methoden ( in der Regel bis Zoutendijk zugeschrieben).lp
Die Benennung ist nicht Standard. Auch der Begriff "steilste Abfahrt" ist kein Standard. Möglicherweise haben Sie Erfolg, wenn Sie einen der Begriffe "zyklischer Koordinatenabstieg", "Koordinatenabstieg", "Gauß-Seidel", "Gauß-Southwell" googeln. Die Verwendung ist nicht konsistent.
Die zyklische Variante wird selten besonders erwähnt. Stattdessen wird in der Regel nur die beste Einzelwahl der Koordinate diskutiert. Dies gibt jedoch fast immer die zyklische Garantie, wenn auch mit einem zusätzlichen Faktor (Anzahl der Variablen): Dies liegt daran, dass die meisten Konvergenzanalysen mit einer Untergrenze für die Verbesserung eines einzelnen Schritts durchgeführt werden und Sie die zusätzlichen Koordinaten ignorieren können. Es scheint auch schwierig zu sein, etwas allgemeines darüber zu sagen, was zyklisch für Sie einkauft, so dass die Leute einfach die beste Koordinate machen und der n- Faktor normalerweise überprüft werden kann.nn
Bewerten Sie unter starker Konvexität. Der einfachste Fall ist, dass Ihre Zielfunktion stark konvex ist. Hierbei haben alle Gradientenabstiegsvarianten die Rate . Dies belegt das Buch von Boyd & Vandenberghe. Der Beweis gibt zuerst das Ergebnis für Gradientenabfallsaktualisierung und verwendet dann Norm Äquivalenz das Ergebnis für die allgemeinen geben l p steilsten Abstieg.O (ln( 1 / ϵ ) )lp
Einschränkungen. Ohne starke Konvexität muss man etwas vorsichtig sein. Sie haben nichts über Einschränkungen gesagt, und daher ist das Infimum im Allgemeinen möglicherweise nicht erreichbar. Ich werde kurz auf das Thema Einschränkungen eingehen, dass der Standardansatz (mit Abstiegsmethoden) darin besteht, jede Iteration auf Ihre Einschränkung zu projizieren, um die Machbarkeit aufrechtzuerhalten, oder Barrieren zu verwenden, um die Einschränkungen in Ihre Zielfunktion zu integrieren. Im Fall des ersteren weiß ich nicht, wie es mit dem Koordinatenabstieg spielt; Im letzteren Fall funktioniert die Koordinatenabsenkung einwandfrei, und diese Barrieren können stark konvex sein.
Genauer gesagt, um Methoden zu koordinieren, anstatt sie zu projizieren, sorgen viele Leute einfach dafür, dass die Koordinatenaktualisierung machbar bleibt: Dies ist beispielsweise genau der Fall beim Frank-Wolfe-Algorithmus und seinen Varianten (dh beim Lösen von SDPs).
Ich werde auch kurz darauf hinweisen, dass der SMO-Algorithmus für SVMs als Koordinatenabstiegsmethode angesehen werden kann, bei der Sie zwei Variablen gleichzeitig aktualisieren und dabei eine Machbarkeitsbeschränkung beibehalten. Die Auswahl der Variablen ist bei dieser Methode heuristisch, und daher sind die Garantien wirklich nur die zyklischen Garantien. Ich bin nicht sicher, ob dieser Zusammenhang in der Standardliteratur vorkommt. Ich habe die SMO-Methode aus Andrew Ngs Kursnotizen gelernt und festgestellt, dass sie ziemlich sauber sind.
n
O (ln(1 / ϵ ) )
Es gibt einige neuere Ergebnisse zum Koordinatenabstieg. Ich habe einige Dinge auf arXiv gesehen. Luo & tseng haben auch einige neuere Papiere. Aber das ist das Wichtigste.
∑mi = 1G( ⟨ Aich, & Lgr; ⟩ )G( aich)m1λexp( 1 / ϵ2)O (1 / ϵ)
Das Problem mit den genauen Updates. Es ist auch sehr häufig der Fall, dass Sie nicht über eine Einzelkoordinatenaktualisierung in geschlossener Form verfügen. Oder die genaue Lösung existiert einfach nicht. Aber zum Glück gibt es viele, viele Liniensuchmethoden, die im Grunde die gleichen Garantien wie eine exakte Lösung erhalten. Dieses Material befindet sich in nichtlinearen Standardprogrammtexten, beispielsweise in den oben genannten Büchern von Bertsekas oder Nocedal & Wright.
Vis a vis your second paragraph: wenn diese gut funktionieren.
Erstens arbeiten viele der oben erwähnten Analysen für den Gradienten für den Koordinatenabstieg. Warum also nicht immer Koordinatenabstieg verwenden? Die Antwort ist, dass Sie für viele Probleme, bei denen Gradientenabstieg anwendbar ist, auch Newton-Methoden verwenden können, für die eine überlegene Konvergenz nachgewiesen werden kann. Ich kenne keinen Weg, um den Newton-Vorteil beim Koordinatenabstieg zu erzielen. Auch die hohen Kosten von Newton-Methoden können mit Quasinewton-Aktualisierungen gemindert werden (siehe zum Beispiel LBFGS).
l0kkkkf