Gibt es eine auf Gradientenabstieg basierende Technik zum Suchen des absoluten Minimums (Maximums) einer Funktion im mehrdimensionalen Raum?


11

Ich bin mit dem Gradientenabstiegsalgorithmus vertraut, der das lokale Minimum (Maximum) einer bestimmten Funktion ermitteln kann.

Gibt es eine Modifikation des Gradientenabfalls, die es ermöglicht, ein absolutes Minimum (Maximum) zu finden, bei dem die Funktion mehrere lokale Extrema hat?

Gibt es allgemeine Techniken, um einen Algorithmus zu verbessern, der lokales Extremum finden kann, um absolutes Extremum zu finden?


Möglicherweise möchten Sie Cross Validated oder die in den FAQ verknüpften AI Q & A überprüfen .
Kaveh

Ich denke, das ist einer der Nachteile des Gefälles - es kann in lokalen Extrema stecken bleiben. Andere Techniken wie das simulierte Tempern sind möglicherweise weniger anfällig dafür, können jedoch nach meinem Verständnis keine Garantien abgeben.
Joe

1
Ich bin mir nicht sicher, was der "mehrdimensionale Raum" damit zu tun hat. Sogar eine Funktion für R kann mehrere lokale Extrema haben, mit denen die Gradientensuche Probleme haben wird.
Suresh Venkat

Ich bin mir ziemlich sicher, dass es einen Satz gibt, der besagt, dass Sie, wenn die Funktion kontinuierlich ist und an genügend Punkten abgetastet wird, garantieren können, dass der Gradientenabstieg ab einem bestimmten Punkt das globale Minimum findet. dh etwas in der Art des Powell-Algorithmus. Die Literatur ist so umfangreich, dass ein Satz wie dieser wahrscheinlich irgendwo veröffentlicht wird, aber noch nichts davon gehört hat. Dies zeigt auch, dass die lokale Optimierung bei ausreichender Stichprobe mit zunehmender Stichprobe globale Optimalwerte erreichen kann.
VZN

etwas verwandt siehe auch Kommentare hier , die stark argumentieren, dass globale
NN-

Antworten:


17

Ich nehme an, Sie sprechen von einer uneingeschränkten Minimierung. In Ihrer Frage sollte angegeben werden, ob Sie eine bestimmte Problemstruktur in Betracht ziehen. Ansonsten lautet die Antwort nein.

Zuerst sollte ich einen Mythos zerstreuen. Bei der klassischen Gradientenabstiegsmethode (auch als steilste Abstiegsmethode bezeichnet) wird nicht einmal garantiert, dass ein lokaler Minimierer gefunden wird. Es stoppt, wenn es einen kritischen Punkt erster Ordnung gefunden hat, dh einen, an dem der Gradient verschwindet. Abhängig von der zu minimierenden Funktion und dem Startpunkt können Sie sehr gut an einem Sattelpunkt oder sogar an einem globalen Maximierer landen!

Betrachten Sie zum Beispiel und den Anfangspunkt ( x 0 , y 0 ) : = ( 1 , 0 ) . Die steilste Abstiegsrichtung ist - f ( 1 , 0 ) = ( - 2 , 0 ) . Ein Schritt der Methode mit exakter Zeilensuche lässt Sie bei ( 0 , 0 )f(x,y)=x2y2(x0,y0):=(1,0)f(1,0)=(2,0)(0,0)wo der Gradient verschwindet. Leider ist es ein Sattelpunkt. Sie würden es realisieren, indem Sie die Optimalitätsbedingungen zweiter Ordnung untersuchen. Stellen Sie sich nun vor, die Funktion ist . Hier ist ( 0 , 0 ) immer noch ein Sattelpunkt, aber numerisch können die Bedingungen zweiter Ordnung es Ihnen nicht sagen. Nehmen wir im Allgemeinen an, Sie stellen fest, dass das Hessische 2 f ( x , y ) einen Eigenwert von - 10 - hat.f(x,y)=x21016y2(0,0)2f(x,y) . Wie liest du es? Ist es eine negative Krümmung oder ein numerischer Fehler? Wie wäre es mit+ 10 - 16 ?1016+1016

Betrachten Sie nun eine Funktion wie

f(x)={1if x0cos(x)if 0<x<π1if xπ.

x0=2

Nahezu alle gradientenbasierten Optimierungsmethoden leiden nun konstruktionsbedingt darunter. Ihre Frage betrifft wirklich die globale Optimierung . Auch hier lautet die Antwort "Nein". Es gibt keine allgemeinen Rezepte zum Ändern einer Methode, um sicherzustellen, dass ein globaler Minimierer identifiziert wird. Fragen Sie sich einfach: Wenn der Algorithmus einen Wert zurückgibt und angibt, dass es sich um einen globalen Minimierer handelt, wie würden Sie überprüfen, ob er wahr ist?

Bei der globalen Optimierung gibt es Methodenklassen. Einige führen Randomisierung ein. Einige verwenden Multi-Start-Strategien. Einige nutzen die Struktur des Problems aus, aber diese sind für Sonderfälle. Holen Sie sich ein Buch über globale Optimierung. Sie werden es genießen.


@ Roman: Sehr willkommen.
Dominique

3

Es gibt wahrscheinlich keine einheitliche Antwort auf Ihre Frage. Möglicherweise möchten Sie sich jedoch mit simulierten Glühalgorithmen oder anderen Ansätzen befassen, die auf Markov-Ketten-Monte-Carlo-Methoden (MCMC) beruhen. Diese können auch mit lokalen Methoden wie dem Gradientenabstieg kombiniert werden.


1

Es gibt viele Referenzen zur "globalen Optimierung neuronaler Netze". Die Techniken ähneln dem simulierten Tempern [siehe andere Antwort]. Die Grundidee besteht darin, den Netzwerkgradientenabstieg ab vielen verschiedenen Gewichtsstartpunkten neu zu starten, die zufällig oder systematisch abgetastet werden. Jedes Ergebnis des Gradientenabfalls ist dann wie eine "Probe". Je mehr Proben entnommen werden, desto höher ist die Wahrscheinlichkeit, dass eine der Proben das globale Optimum darstellt, insbesondere wenn sich die Zielfunktion im Sinne von kontinuierlich, differenzierbar usw. "gut verhält".

Online-Refs

[1] Globale Optimierung neuronaler Netzwerkgewichte von Hamm et al

[2] Ein globaler Optimierungsansatz für das Training neuronaler Netze Voglis / Lagaris

[3] Kalibrieren künstlicher neuronaler Netze mit Global Optimization Pinter

[4] Globale Optimierung neuronaler Netze mit einem deterministischen Hybridansatz Beliakov

[5] Globale Optimierung für das Training neuronaler Netze Shang / Wah


1

Im Allgemeinen ist es rechnerisch schwierig, multivariate nicht konvexe Funktionen zu optimieren. Die Härte gibt es in verschiedenen Geschmacksrichtungen (kryptografisch, NP-hart). Eine Möglichkeit, dies zu sehen, besteht darin, dass Mischungsmodelle (wie die Mischung von Guassianern oder HMMs) schwer zu erlernen sind, aber einfach (*) wären, wenn es möglich wäre, die Wahrscheinlichkeit effizient zu maximieren. Ergebnisse zur Härte des Lernens von HMMs finden Sie unter http://alex.smola.org/journalclub/AbeWar92.pdf http://link.springer.com/chapter/10.1007%2F3-540-45678-3_36 http: // www.math.ru.nl/~terwijn/publications/icgiFinal.pdf

(*) modulo die üblichen Bedingungen der Nichtentartung und Identifizierbarkeit


0

Ich muss Dominique nicht zustimmen. hajek hat Mitte der 1980er Jahre gezeigt, dass das Tempern eines nicht konvexen Problems unter bestimmten strengen Bedingungen garantiert das globale Minimum erreicht: http://dx.doi.org/10.1287/moor.13.2.311


2
Angesichts der oben genannten Härteergebnisse müssen diese Bedingungen tatsächlich ziemlich streng sein!
Aryeh
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.