Die ersten beiden von Ihnen genannten Algorithmen (Nelder-Mead und Simulated Annealing) gelten in Optimierungskreisen im Allgemeinen als ziemlich veraltet, da es viel bessere Alternativen gibt, die sowohl zuverlässiger als auch kostengünstiger sind. Genetische Algorithmen decken einen weiten Bereich ab, und einige davon können vernünftig sein.
In der breiteren Klasse der DFO-Algorithmen (Derivative-Free-Optimization) gibt es jedoch viele, die deutlich besser sind als diese "Klassiker", da dies in den letzten Jahrzehnten ein aktives Forschungsgebiet war. Könnten einige dieser neueren Ansätze für tiefes Lernen sinnvoll sein?
Ein relativ neuer Artikel, der den Stand der Technik vergleicht, ist der folgende:
Rios, LM & Sahinidis, NV (2013) Derivatfreie Optimierung: Überprüfung von Algorithmen und Vergleich von Softwareimplementierungen. Journal of Global Optimization.
Dies ist ein schönes Papier, das viele interessante Einblicke in die neuesten Techniken bietet. Die Ergebnisse zeigen zum Beispiel deutlich, dass die besten lokalen Optimierer alle "modellbasiert" sind und unterschiedliche Formen der sequentiellen quadratischen Programmierung (SQP) verwenden.
Wie jedoch in ihrer Zusammenfassung angemerkt, "stellen wir fest, dass die Fähigkeit all dieser Löser, gute Lösungen zu erhalten, mit zunehmender Problemgröße abnimmt." Um eine Vorstellung von den Zahlen zu bekommen, erhielten die Löser für alle Probleme ein Budget von 2500 Funktionsauswertungen, und für die Optimierung der Problemgrößen wurden maximal ~ 300 Parameter verwendet. Abgesehen von O [10] -Parametern zeigten nur sehr wenige dieser Optimierer eine sehr gute Leistung, und selbst die besten zeigten einen merklichen Leistungsabfall, da die Problemgröße zunahm.
Bei sehr hochdimensionalen Problemen sind DFO-Algorithmen einfach nicht mit Derivaten konkurrierend. Um eine Perspektive zu geben, ist die PDE-basierte Optimierung (partielle Differentialgleichung) ein weiterer Bereich mit sehr hohen Dimensionsproblemen (z. B. mehrere Parameter für jede Zelle eines großen 3D-Gitters mit finiten Elementen). In diesem Bereich ist die " adjungierte Methode " eine der am häufigsten verwendeten Methoden. Dies ist auch ein Gradientenabstiegsoptimierer, der auf der automatischen Unterscheidung eines Vorwärtsmodellcodes basiert.
Am nächsten an einem hochdimensionalen DFO-Optimierer liegt möglicherweise der Ensemble Kalman-Filter , mit dem Daten in komplexe PDE-Simulationen, z. B. Wettermodelle, integriert werden. Interessanterweise ist dies im Wesentlichen ein SQP-Ansatz, jedoch mit einer Bayesianisch-Gaußschen Interpretation (das quadratische Modell ist also eindeutig positiv, dh es gibt keine Sattelpunkte). Ich glaube jedoch nicht, dass die Anzahl der Parameter oder Beobachtungen in diesen Anwendungen vergleichbar ist mit dem, was man beim Deep Learning sieht.
Randbemerkung (lokale Minima): Ausgehend von dem, was ich über tiefes Lernen gelesen habe, glaube ich, dass es eher Sattelpunkte als lokale Minima sind, die für hochdimensionale NN-Parameterräume am problematischsten sind.
Die jüngste Übersicht in Nature besagt beispielsweise, dass "die jüngsten theoretischen und empirischen Ergebnisse stark darauf hindeuten, dass lokale Minima im Allgemeinen kein ernstes Problem darstellen. Stattdessen ist die Landschaft mit einer kombinatorisch großen Anzahl von Sattelpunkten gefüllt, bei denen der Gradient Null ist Oberfläche krümmt sich in den meisten Dimensionen nach oben und im Rest nach unten. "
Ein ähnliches Anliegen betrifft die lokale vs. globale Optimierung (zum Beispiel diese Frage, auf die in den Kommentaren hingewiesen wurde). Während ich nicht tief lerne, ist eine Überanpassung meiner Erfahrung nach definitiv ein berechtigtes Anliegen. Meiner Meinung nach sind globale Optimierungsmethoden am besten geeignet für das Engineering Design Probleme , die auf „natürliche“ Daten nicht stark hängen. In der Datenassimilation Problemen, alle aktuellen globalen Minima leicht bei Zugabe von neuen Daten ändern könnten (Einschränkung: Meine Erfahrung ist in geowissenschaftlichen Problemen konzentriert, wo die Daten im Allgemeinen „spärlich“ in Bezug auf Modellkapazität).
Eine interessante Perspektive ist vielleicht
O. Bousquet & L. Bottou (2008) Die Kompromisse des groß angelegten Lernens. NIPS.
Dies liefert semitheoretische Argumente dafür, warum und wann eine ungefähre Optimierung in der Praxis vorzuziehen ist.
Endnote (Meta-Optimierung): Während gradientenbasierte Techniken für Trainingsnetzwerke anscheinend dominant sind, kann DFO eine Rolle bei den zugehörigen Meta-Optimierungsaufgaben spielen.
Ein Beispiel wäre die Optimierung von Hyperparametern. (Interessanterweise können die erfolgreichen modellbasierten DFO-Optimierer von Rios & Sahinidis als wesentliche Lösung einer Folge von Design-of-Experiments / Response-Surface- Problemen angesehen werden.)
O [ N2]n o tL1 könnte jedoch meta-optimiert sein.)