Ein kürzlich veröffentlichter Aufsatz The Loss Surfaces of Multilayer Networks bietet einige mögliche Erklärungen dafür. Aus ihrem Abstract (fett ist meins):
"Wir vermuten, dass sowohl simuliertes Tempern als auch SGD zum Band niedriger kritischer Punkte konvergieren und dass alle dort gefundenen kritischen Punkte lokale Minima von hoher Qualität sind, die durch den Testfehler gemessen werden. Dies unterstreicht einen großen Unterschied zwischen großen und kleinen Netzwerken Für letztere haben lokale Minima eine Wahrscheinlichkeit von ungleich Null, wiederhergestellt zu werden. Schließlich zeigen wir, dass die Wiederherstellung des globalen Minimums mit zunehmender Netzwerkgröße schwieriger wird und in der Praxis irrelevant ist, da das globale Minimum häufig zu einer Überanpassung führt . "
Viele der einflussreichen Personen im Bereich Deep Learning (Yann LeCunn und Yoshua Bengio, um nur einige zu nennen) und einige Forscher aus mathematischer Sicht (Rong Ge und andere Mitarbeiter von Sanjeev Arora) haben diese Ideen diskutiert und untersucht.
In dem oben zitierten Artikel wird auf 3 verwiesen, die ein Banding- / Konzentrationsphänomen der lokalen Minima-Werte zeigt, da die Netze mehr versteckte Einheiten aufweisen. Die Streifenbildung / Konzentration stellt einige empirische Beweise dafür dar, dass für tiefere oder größere Modelle ein lokales Minimum "gut genug" ist, da ihre Verlustwerte in etwa ähnlich sind. Und vor allem haben sie einen Verlust, der näher am globalen Minimum liegt, wenn das Modell komplexer wird (in diesem Fall breiter, aber in der Praxis tiefer).
Darüber hinaus verwenden sie ein Spin-Glass-Modell, von dem sie sogar behaupten, es sei nur ein Modell und zeige nicht unbedingt das wahre Bild, um zu zeigen, dass das Erreichen des globalen Minimierers von einer lokalen Minima aus exponentiell lange dauern kann:
"Um ein weiteres tief liegendes Minimum zu finden, müssen wir einen Sattelpunkt durchqueren. Deshalb müssen wir mindestens bis zu dem Punkt aufsteigen, an dem es eine gleiche Anzahl von Sattelpunkten gibt, um eine angemessene Chance zu haben, einen Weg zu finden, der möglicherweise führen könnte Dies dauert exponentiell lange, so dass es in der Praxis nicht möglich ist, das globale Minimum zu finden. "
Die Rong Ge-Forschung konzentriert sich auf das Durchbrechen von Sattelpunkten. Yoshua Bengio und seine Mitarbeiter haben eine ziemlich kühne Sattelpunkt-Hypothese aufgestellt:
Hier argumentieren wir basierend auf Ergebnissen der statistischen Physik, der Zufallsmatrixtheorie, der Theorie neuronaler Netze und empirischen Beweisen, dass eine tiefere und tiefere Schwierigkeit von der Proliferation von Sattelpunkten und nicht von lokalen Minima herrührt, insbesondere bei hochdimensionalen Problemen von praktischem Interesse . Solche Sattelpunkte sind von hohen Fehlerplateaus umgeben, die das Lernen dramatisch verlangsamen und den illusorischen Eindruck eines lokalen Minimums erwecken können.
Quelle hier: Identifizieren und Angreifen des Sattelpunktproblems bei der hochdimensionalen nichtkonvexen Optimierung.
In gewissem Maße stimmen die beiden oben genannten Ansätze nicht genau überein (die Sattelpunkthypothese könnte in Frage stellen, was wirklich ein lokales Minimum und was lediglich ein schlecht konditionierter Sattelpunkt mit einer sehr langen Plateauregion ist). Die Idee hinter der Sattelpunkthypothese ist, dass es möglich ist, Optimierungsmethoden zu entwerfen, um Sattelpunkte zu durchbrechen, beispielsweise das sattelfreie Newton aus dem Bengio-Artikel, um die Konvergenz zu beschleunigen und möglicherweise sogar das globale Optimum zu erreichen. Der erste Artikel mit mehrschichtiger Verlustfläche befasst sich nicht wirklich mit dem Erreichen des globalen Optimums und glaubt tatsächlich, dass er einige schlechte Überanpassungseigenschaften aufweist. Interessanterweise verwenden beide Artikel Ideen aus der statistischen Physik und Spin-Glass-Modelle.
Sie sind jedoch insofern verwandt, als beide Artikel der Ansicht sind, dass man die Optimierungsherausforderung von Sattelpunkten bewältigen muss, um den globalen Minimierer zu erreichen. Der erste Artikel glaubt nur, dass lokale Minima gut genug sind.
Man kann sich fragen, ob Impulsmethoden und andere neue Optimierungsalgorithmen, die einige Krümmungseigenschaften 2. Ordnung abschätzen können, den Sattelpunkten entgehen können. Eine berühmte Animation von Alec Radford hier .
Zur Beantwortung Ihrer Frage: "Woher kommt diese Überzeugung?" Ich persönlich denke, dass es möglich ist, verschiedene zufällige Samen zu verwenden, um verschiedene Gewichte zu lernen, aber die entsprechenden Netze haben eine ähnliche quantitative Leistung. Wenn Sie beispielsweise zwei verschiedene zufällige Startwerte für die Glorot-Gewichtsinitialisierung festlegen, werden Sie wahrscheinlich unterschiedliche Gewichte lernen. Wenn Sie jedoch mit ähnlichen Optimierungsmethoden trainieren, weisen die Netze eine ähnliche Leistung auf. Eine verbreitete Folklorehypothese ist, dass die Optimierungslandschaft der eines Eierkartons ähnelt, ein weiterer guter Blogbeitrag dazu hier: Keine lokalen Minima mehr? mit der Eierkarton-Analogie.
Edit: Ich wollte nur klarstellen, dass die Eierkarton-Analogie nicht wahr ist, da sonst keine Dynamik oder andere fortschrittlichere Optimierungstechniken erforderlich wären. Es ist jedoch bekannt, dass SGD nicht so gut arbeitet wie SGD + Momentum oder modernere Optimierungsalgorithmen, was möglicherweise auf das Vorhandensein von Sattelpunkten zurückzuführen ist.