Ich weiß, dass dieser Thread ziemlich alt ist, und andere haben großartige Arbeit geleistet, um Konzepte wie lokale Minima, Überanpassung usw. zu erklären. Da OP jedoch nach einer alternativen Lösung suchte, werde ich versuchen, eine beizutragen, und hoffe, dass dies weitere interessante Ideen inspiriert.
Die Idee ist, jedes Gewicht w zu w + t zu ersetzen, wobei t eine Zufallszahl ist, die der Gaußschen Verteilung folgt. Die endgültige Ausgabe des Netzwerks ist dann die durchschnittliche Ausgabe über alle möglichen Werte von t. Dies kann analytisch erfolgen. Sie können das Problem dann entweder mit Gradientenabstieg oder LMA oder anderen Optimierungsmethoden optimieren. Sobald die Optimierung abgeschlossen ist, haben Sie zwei Möglichkeiten. Eine Möglichkeit besteht darin, das Sigma in der Gaußschen Verteilung zu reduzieren und die Optimierung immer wieder durchzuführen, bis das Sigma 0 erreicht, dann haben Sie ein besseres lokales Minimum (aber möglicherweise kann dies zu einer Überanpassung führen). Eine andere Option ist die Verwendung der Option mit der Zufallszahl in ihren Gewichten, da diese normalerweise eine bessere Generalisierungseigenschaft aufweist.
Der erste Ansatz ist ein Optimierungstrick (ich nenne ihn Faltungs-Tunneling, da er die Faltung über die Parameter verwendet, um die Zielfunktion zu ändern), um die Oberfläche der Kostenfunktionslandschaft zu glätten und einige der lokalen Minima zu beseitigen Erleichtert das Auffinden eines globalen Minimums (oder eines besseren lokalen Minimums).
Der zweite Ansatz bezieht sich auf die Geräuschinjektion (bei Gewichten). Beachten Sie, dass dies analytisch erfolgt, was bedeutet, dass das Endergebnis ein einzelnes Netzwerk anstelle mehrerer Netzwerke ist.
Das Folgende sind Beispielausgaben für das Zwei-Spiralen-Problem. Die Netzwerkarchitektur ist für alle drei gleich: Es gibt nur eine verborgene Schicht mit 30 Knoten, und die Ausgabeschicht ist linear. Der verwendete Optimierungsalgorithmus ist LMA. Das linke Bild zeigt die Vanilleeinstellung. die Mitte verwendet den ersten Ansatz (nämlich wiederholt das Sigma gegen 0 zu reduzieren); der dritte verwendet Sigma = 2.
Sie können sehen, dass die Vanille-Lösung die schlechteste ist, das Faltungstunneln eine bessere Arbeit leistet und die Rauschinjektion (mit Faltungstunneln) die beste ist (in Bezug auf die Verallgemeinerungseigenschaft).
Sowohl das Faltungstunneln als auch die analytische Art der Rauschinjektion sind meine ursprünglichen Ideen. Vielleicht sind sie die Alternative, die jemanden interessieren könnte. Die Details finden Sie in meinem Artikel Kombinieren einer unendlichen Anzahl neuronaler Netze zu einem . Warnung: Ich bin kein professioneller akademischer Autor und die Arbeit wird nicht von Fachleuten begutachtet. Wenn Sie Fragen zu den von mir genannten Ansätzen haben, hinterlassen Sie bitte einen Kommentar.