Verständnis „Fast alle lokalen Minima haben einen sehr ähnlichen Funktionswert wie das globale Optimum“

In einem kürzlich veröffentlichten Blog-Beitrag von Rong Ge hieß es:

Es wird angenommen, dass für viele Probleme, einschließlich des Lernens tiefer Netze, fast alle lokalen Minima einen sehr ähnlichen Funktionswert aufweisen wie das globale Optimum, und daher ist es gut genug, ein lokales Minimum zu finden.

Woher kommt dieser Glaube?

— John Donn
quelle

Ich werde überrascht sein, wenn dies keine empirische Feststellung ist.

— usεr11852 sagt Reinstate Monic

Ein kürzlich veröffentlichter Aufsatz The Loss Surfaces of Multilayer Networks bietet einige mögliche Erklärungen dafür. Aus ihrem Abstract (fett ist meins):

"Wir vermuten, dass sowohl simuliertes Tempern als auch SGD zum Band niedriger kritischer Punkte konvergieren und dass alle dort gefundenen kritischen Punkte lokale Minima von hoher Qualität sind, die durch den Testfehler gemessen werden. Dies unterstreicht einen großen Unterschied zwischen großen und kleinen Netzwerken Für letztere haben lokale Minima eine Wahrscheinlichkeit von ungleich Null, wiederhergestellt zu werden. Schließlich zeigen wir, dass die Wiederherstellung des globalen Minimums mit zunehmender Netzwerkgröße schwieriger wird und in der Praxis irrelevant ist, da das globale Minimum häufig zu einer Überanpassung führt . "

Viele der einflussreichen Personen im Bereich Deep Learning (Yann LeCunn und Yoshua Bengio, um nur einige zu nennen) und einige Forscher aus mathematischer Sicht (Rong Ge und andere Mitarbeiter von Sanjeev Arora) haben diese Ideen diskutiert und untersucht.

In dem oben zitierten Artikel wird auf 3 verwiesen, die ein Banding- / Konzentrationsphänomen der lokalen Minima-Werte zeigt, da die Netze mehr versteckte Einheiten aufweisen. Die Streifenbildung / Konzentration stellt einige empirische Beweise dafür dar, dass für tiefere oder größere Modelle ein lokales Minimum "gut genug" ist, da ihre Verlustwerte in etwa ähnlich sind. Und vor allem haben sie einen Verlust, der näher am globalen Minimum liegt, wenn das Modell komplexer wird (in diesem Fall breiter, aber in der Praxis tiefer).

Darüber hinaus verwenden sie ein Spin-Glass-Modell, von dem sie sogar behaupten, es sei nur ein Modell und zeige nicht unbedingt das wahre Bild, um zu zeigen, dass das Erreichen des globalen Minimierers von einer lokalen Minima aus exponentiell lange dauern kann:

"Um ein weiteres tief liegendes Minimum zu finden, müssen wir einen Sattelpunkt durchqueren. Deshalb müssen wir mindestens bis zu dem Punkt aufsteigen, an dem es eine gleiche Anzahl von Sattelpunkten gibt, um eine angemessene Chance zu haben, einen Weg zu finden, der möglicherweise führen könnte Dies dauert exponentiell lange, so dass es in der Praxis nicht möglich ist, das globale Minimum zu finden. "

Die Rong Ge-Forschung konzentriert sich auf das Durchbrechen von Sattelpunkten. Yoshua Bengio und seine Mitarbeiter haben eine ziemlich kühne Sattelpunkt-Hypothese aufgestellt:

Hier argumentieren wir basierend auf Ergebnissen der statistischen Physik, der Zufallsmatrixtheorie, der Theorie neuronaler Netze und empirischen Beweisen, dass eine tiefere und tiefere Schwierigkeit von der Proliferation von Sattelpunkten und nicht von lokalen Minima herrührt, insbesondere bei hochdimensionalen Problemen von praktischem Interesse . Solche Sattelpunkte sind von hohen Fehlerplateaus umgeben, die das Lernen dramatisch verlangsamen und den illusorischen Eindruck eines lokalen Minimums erwecken können.

Quelle hier: Identifizieren und Angreifen des Sattelpunktproblems bei der hochdimensionalen nichtkonvexen Optimierung.

In gewissem Maße stimmen die beiden oben genannten Ansätze nicht genau überein (die Sattelpunkthypothese könnte in Frage stellen, was wirklich ein lokales Minimum und was lediglich ein schlecht konditionierter Sattelpunkt mit einer sehr langen Plateauregion ist). Die Idee hinter der Sattelpunkthypothese ist, dass es möglich ist, Optimierungsmethoden zu entwerfen, um Sattelpunkte zu durchbrechen, beispielsweise das sattelfreie Newton aus dem Bengio-Artikel, um die Konvergenz zu beschleunigen und möglicherweise sogar das globale Optimum zu erreichen. Der erste Artikel mit mehrschichtiger Verlustfläche befasst sich nicht wirklich mit dem Erreichen des globalen Optimums und glaubt tatsächlich, dass er einige schlechte Überanpassungseigenschaften aufweist. Interessanterweise verwenden beide Artikel Ideen aus der statistischen Physik und Spin-Glass-Modelle.

Sie sind jedoch insofern verwandt, als beide Artikel der Ansicht sind, dass man die Optimierungsherausforderung von Sattelpunkten bewältigen muss, um den globalen Minimierer zu erreichen. Der erste Artikel glaubt nur, dass lokale Minima gut genug sind.

Man kann sich fragen, ob Impulsmethoden und andere neue Optimierungsalgorithmen, die einige Krümmungseigenschaften 2. Ordnung abschätzen können, den Sattelpunkten entgehen können. Eine berühmte Animation von Alec Radford hier .

Zur Beantwortung Ihrer Frage: "Woher kommt diese Überzeugung?" Ich persönlich denke, dass es möglich ist, verschiedene zufällige Samen zu verwenden, um verschiedene Gewichte zu lernen, aber die entsprechenden Netze haben eine ähnliche quantitative Leistung. Wenn Sie beispielsweise zwei verschiedene zufällige Startwerte für die Glorot-Gewichtsinitialisierung festlegen, werden Sie wahrscheinlich unterschiedliche Gewichte lernen. Wenn Sie jedoch mit ähnlichen Optimierungsmethoden trainieren, weisen die Netze eine ähnliche Leistung auf. Eine verbreitete Folklorehypothese ist, dass die Optimierungslandschaft der eines Eierkartons ähnelt, ein weiterer guter Blogbeitrag dazu hier: Keine lokalen Minima mehr? mit der Eierkarton-Analogie.

Edit: Ich wollte nur klarstellen, dass die Eierkarton-Analogie nicht wahr ist, da sonst keine Dynamik oder andere fortschrittlichere Optimierungstechniken erforderlich wären. Es ist jedoch bekannt, dass SGD nicht so gut arbeitet wie SGD + Momentum oder modernere Optimierungsalgorithmen, was möglicherweise auf das Vorhandensein von Sattelpunkten zurückzuführen ist.

— Indie AI
quelle

+1 Eine beeindruckend informative und maßgebliche Antwort - in nur wenigen leicht verständlichen Abschnitten scheinen die Ideen und aktuellen Richtungen in einem wichtigen Teilfeld festzuhalten.

— whuber

Vielen Dank für Ihre Antwort. Könnten Sie, seit Sie Yann LeCun erwähnt haben, vielleicht auf einen bestimmten Verweis von ihm hinweisen, in dem diese oder ähnliche Ideen erörtert werden?

— John Donn

Hey John, der Artikel über die Verlustfläche von mehrschichtigen Netzen, auf den ich in diesem Beitrag verwiesen habe, wurde von Yann mitverfasst. Ein weiterer ähnlicher Artikel, den Yann mitverfasst hat, ist Explorations on high dimensional landscapes . Die beiden Artikel sind ziemlich ähnlich, der Artikel, auf den ich mich ursprünglich bezog, scheint populärer zu sein.

— Indie AI

Der Link "Keine lokalen Minima mehr" ist nicht mehr vorhanden. Durch eine schnelle Google-Suche konnte ich den Blog-Post, auf den es sich bezieht, nicht finden. Ist der Blogbeitrag offline? Oder einfach umgezogen?

— LMB