Gibt es Heuristiken zur Optimierung der Methode der sukzessiven Überentspannung (SOR)?

Nach meinem Verständnis funktioniert die sukzessive Relaxation durch Auswahl eines Parameters $0\leq\omega\leq2$ und Verwendung einer linearen Kombination aus einer (quasi) Gauß-Seidel-Iteration und dem Wert im vorherigen Zeitschritt ... das heißt

${u}^{k+1} = (\omega){u_{gs}}^{k+1} + (1-\omega)u^{k}$

Ich sage 'quasi', weil ${u_{gs}}^{k+1}$ zu jedem Zeitpunkt die neuesten Informationen enthält, die gemäß dieser Regel aktualisiert wurden. (Beachten Sie, dass dies bei $\omega=1$ genau Gauß-Seidel ist).

Auf jeden Fall habe ich gelesen, dass sich bei optimaler Wahl für $\omega$ (so dass die Iteration schneller konvergiert als jede andere) 2 für das Poisson-Problem nähert, wenn sich die räumliche Auflösung Null nähert. Gibt es einen ähnlichen Trend für andere symmetrische, diagonal dominierende Probleme? Gibt es eine Möglichkeit, Omega optimal zu wählen, ohne es in ein adaptives Optimierungsschema einzubetten? Gibt es andere Heuristiken für andere Arten von Problemen? Welche Art von Problemen wäre eine Unterentspannung ( $\omega<1$ ) optimal?

linear-algebra optimization iterative-method

— Paul
quelle

Nicht ganz Ihre Frage, aber siehe Salakhutdinov und Roweis, Adaptive Overrelaxed Bound Optimization Methods 2003, 8p. ( Adaptive Beschleunigungen haben einen hohen Knall pro Dollar, sind aber kaum zu analysieren, daher hier nicht zum Thema.)

— Denis

Gedämpfte Jacobi

$A$ $D$ $D^{-1}A$ $[a,b]$ $\omega$

B_{Jacobi} = I - ω D^{- 1} A

$B_\text{Jacobi} = I - \omega D^{-1} A$

[1 - ω b, 1 - ω a]

$[1 - \omega b,1 - \omega a]$

ω_{opt} = \frac{2}{a + b}

$\omega_{\text{opt}} = \frac 2 {a + b}$

ρ_{opt} = 1 - \frac{2 a}{a + b} = \frac{b - a}{a + b} .

$\rho_\text{opt} = 1 - \frac{2a}{a+b} = \frac{b-a}{a+b}.$

a ≪ b

$a \ll b$

b

$b$

a

$a$

Aufeinanderfolgende Überentspannung (SOR)

$D^{-1}A$ $\mu_\max$ $I - D^{-1} A$ $\mu_\max < 1$

ω_{opt} = 1 + {(\frac{μ_{max}}{1 + \sqrt{1 - μ_{max}^{2}}})}^{2}

$\omega_\text{opt} = 1 + \left( \frac{\mu_\max}{1 + \sqrt{1 - \mu_\max^2}} \right)^2$

ρ_{opt} = ω_{opt} - 1.

$\rho_\text{opt} = \omega_\text{opt} - 1.$

ω_{opt}

$\omega_\text{opt}$ nähert sich 2, wenn .

μ_{max} \to 1

$\mu_\max \to 1$

Bemerkungen

Es ist nicht mehr 1950 und es macht wirklich keinen Sinn, stationäre iterative Methoden als Löser zu verwenden. Stattdessen verwenden wir sie als Glätter für Multigrid. In diesem Zusammenhang möchten wir nur das obere Ende des Spektrums ansprechen. Durch die Optimierung des Relaxationsfaktors in SOR wird bei SOR nur eine sehr geringe Dämpfung hoher Frequenzen erzeugt (im Austausch für eine bessere Konvergenz bei niedrigeren Frequenzen). Daher ist es normalerweise besser, Standard-Gauß-Seidel zu verwenden, das in SOR . Bei unsymmetrischen Problemen und Problemen mit stark variablen Koeffizienten kann eine unterentspannte SOR ( ) bessere Dämpfungseigenschaften aufweisen. $\omega = 1$ $\omega <1$

Das Schätzen beider Eigenwerte von ist teuer, aber der größte Eigenwert kann mit wenigen Krylov-Iterationen schnell geschätzt werden. Polynomglätter (mit Jacobi vorkonditioniert) sind effektiver als mehrere Iterationen von gedämpftem Jacobi und einfacher zu konfigurieren, daher sollten sie bevorzugt werden. In dieser Antwort finden Sie weitere Informationen zu Polynomglättern. $D^{-1}A$

Es wird manchmal behauptet, dass SOR nicht als Vorkonditionierer für Krylov-Methoden wie GMRES verwendet werden sollte. Dies ergibt sich aus der Beobachtung, dass der optimale Relaxationsparameter alle Eigenwerte der Iterationsmatrix auf einen Kreis setzen sollte zentriert am Ursprung. Das Spektrum des vorkonditionierten Operators

B_{SOR} = 1 - {(\frac{1}{ω} D + L)}^{- 1} A

$B_\text{SOR} = 1 - \left(\frac 1 \omega D + L\right)^{-1} A$

(\frac{1}{ω} D + L)^{- 1} A

$(\frac 1 \omega D + L)^{-1} A$ hat Eigenwerte auf einem Kreis mit demselben Radius, ist jedoch auf 1 zentriert. Bei schlecht konditionierten Operatoren liegt der Radius des Kreises ziemlich nahe bei 1, sodass GMRES Eigenwerte in der Nähe des Ursprungs in einem Winkelbereich sieht, der normalerweise nicht gut ist für die Konvergenz. In der Praxis kann GMRES bei Vorkonditionierung mit SOR vernünftig konvergieren, insbesondere bei Problemen, die bereits ziemlich gut konditioniert sind, aber andere Vorkonditionierer sind häufig wirksamer.

— Jed Brown
quelle

Ich bin damit einverstanden, dass es nicht mehr 1950 ist: o) Ich bin jedoch nicht der Meinung, dass es keinen Sinn mehr macht, iterative Schreibwarenlöser zu verwenden. Mit einem stationären iterativen Löser für einen technischen Anwendungslöser, der auf nichtlinearen freien Oberflächenlösern höherer Ordnung (sowohl Potentialfluss- als auch Eulergleichungen) basiert, können wir die Effizienz von Multigrid-Lehrbüchern erreichen. Die Effizienz war genauso gut wie bei einer vorkonditionierten GMRES-Krylov-Subraummethode mit erreichbarer Genauigkeit (unsere aktuelle Veröffentlichung finden Sie hier onlinelibrary.wiley.com/doi/10.1002/fld.2675/abstract, die als Proof-of-Concept dient).

— Allan P. Engsig-Karup

Sie verwenden Gauß-Seidel als Glättung für Multigrid (wo Methoden wie SOR hingehören). Wenn Multigrid gut funktioniert, ist auch eine äußere Krylov-Methode nicht erforderlich (obwohl Ihr Papier diese Vergleiche nicht zeigt). Sobald Multigrid an Effizienz verliert (z. B. mehr als 5 Iterationen, um einen Diskretisierungsfehler zu erreichen), lohnt es sich normalerweise, eine Krylov-Methode um den Multigrid-Zyklus zu wickeln.

— Jed Brown

Die gesamte Methode ist ein p-Multigrid mit GS-Glättung. Die vollständige Methode kann jedoch als stationäre iterative Methode geschrieben werden, da alle Operatoren konstant sind. Sie können es als vorkonditionierte Richardson-Methode anzeigen, wobei M ein Vorkonditionierer ist, der aus der Multigrid-Methode aufgebaut ist. Die Analyse wurde durchgeführt, ist aber noch nicht veröffentlicht. Eigentlich ging diese Arbeit in die andere Richtung, die Sie vorschlagen. Die Krylov-Methode in dieser Arbeit (ein GMRES) wurde verworfen und dann in eine Multigrid-Methode höherer Ordnung umgewandelt, da wir fanden, dass dies genauso effizient war (und bei reduziertem Speicherbedarf).

— Allan P. Engsig-Karup

Die Verwendung von und Multigrid ist natürlich unabhängig davon, ob außen eine Krylov-Methode angewendet wird. Die relativen Kosten verschiedener Operationen unterscheiden sich natürlich für GPUs im Vergleich zu CPUs, und es gibt Unterschiede zwischen den Implementierungen. Vorkonditionierter Richardson ist nur eine Fehlerkorrekturmethode. Dies gilt auch für die nichtlinearen Methoden Newton und Picard (sofern als solche geschrieben). Andere nichtlineare Methoden (NGMRES, BFGS usw.) verwenden ebenfalls die Historie und können abhängig von der relativen Stärke der Nichtlinearität besser sein.

p

$p$

h p

$hp$

— Jed Brown

Es ist zu beachten, dass es bei Multigrid-Glättern manchmal vorzuziehen ist (wenn die Architektur dies zulässt), die Kopplung hoher Ordnung / niedriger Ordnung multiplikativ zu machen. Dies erweitert auch die "vorkonditionierte Richardson" -Formulierung. (Ich hatte letzte Woche auf einer Konferenz eine Diskussion mit einem Mann, der im Wesentlichen alle Methoden als vorkonditionierten Richardson mit verschachtelter Iteration betrachten wollte, was meiner Meinung nach keinen besonderen Vorteil gegenüber anderen Aussagen zur Solver-Zusammensetzung darstellt. Ich weiß nicht, ob dies der Fall ist relevant für Sie, aber Ihre Punkte erinnerten mich an die Diskussion.)

— Jed Brown