Katastrophales Vergessen ist ein inhärentes Problem in neuronalen Netzen. Aus Wikipedia,
(Katastrophales Vergessen) ist eine radikale Manifestation des Dilemmas „Empfindlichkeit-Stabilität“ oder des Dilemmas „Stabilität-Plastizität“. Insbesondere beziehen sich diese Probleme auf das Problem, ein künstliches neuronales Netzwerk herstellen zu können, das für neue Informationen empfindlich ist, aber nicht durch diese gestört wird. Nachschlagetabellen und verbindungsorientierte Netzwerke liegen auf den gegenüberliegenden Seiten des Stabilitätsplastizitätsspektrums. Ersteres bleibt bei Vorhandensein neuer Informationen völlig stabil, es fehlt jedoch die Fähigkeit, aus neuen Eingaben allgemeine Prinzipien zu verallgemeinern, dh daraus abzuleiten.
Was ist katastrophales Vergessen? Betrachten wir zwei Aufgaben: Aufgabe A und Aufgabe B. Nehmen wir nun an, wir verwenden ein vorab trainiertes Modell, das für Aufgabe A (gelernte Gewichte ) bereits ziemlich gut ist , und wir möchten es auch "fein " Fit-Aufgabe B. Die übliche Praxis besteht darin, die Gewichte eines in Aufgabe A trainierten Modells zu nehmen und sie als Initialisierung für das Training in Aufgabe B zu verwenden. Dies funktioniert gutθAin Anwendungen, in denen Aufgabe B eine "Unteraufgabe" von Aufgabe A ist (z. B. erkennt Aufgabe B Brillen und Aufgabe A erkennt Gesichter). Wenn B keine Unteraufgabe von A ist, besteht die Befürchtung, dass es zu einem katastrophalen Vergessen kommt: Im Wesentlichen verwendet das Netzwerk dieselben Neuronen, die zuvor für Aufgabe A optimiert wurden, um Aufgabe B vorherzusagen. Dabei wird dies der Fall sein verlieren vollständig ihre Fähigkeit, Instanzen von Aufgabe A korrekt zu klassifizieren. Sie können selbst damit experimentieren: Sie können ein kleines Netzwerk aufbauen, das erkennt, ob ein MNIST-Bild eine 5 ist oder nicht, und seine Genauigkeit bei dieser Aufgabe messen. Wenn Sie dieses Modell dann auf die Aufgabe abstimmen, festzustellen, ob ein MNIST-Bild eine 4 ist oder nicht, werden Sie feststellen, dass sich die Genauigkeit des endgültigen Modells für die ursprüngliche Aufgabe (Erkennung von 5) verschlechtert hat.
Eine naive Lösung. Die naive Lösung für katastrophales Vergessen wäre, nicht nur die Gewichte des Modells auf zu , sondern auch eine Regularisierung hinzuzufügen: die Lösung des Modells, wenn es weit von . Im Wesentlichen bedeutet dies, dass das Ziel darin besteht, die beste Lösung für Aufgabe B zu finden, die immer noch , der Lösung für Aufgabe A, ähnelt . Der Grund, warum wir dies als naiven Ansatz bezeichnen, ist, dass es oft nicht gut funktioniert. Die von neuronalen Netzen erlernten Funktionen sind oft sehr kompliziert und als linear, so dass eine kleine Änderung der Parameterwerte (dh liegt nahe bei ) immer noch zu sehr unterschiedlichen Ergebnissen führen kann (dhθAθAθAθBθAfθA sich sehr von ). Da es die Ergebnisse sind, die uns wichtig sind, ist dies schlecht für uns.fθB
Pseudo-Probe . Ein besserer Ansatz wäre, zu versuchen, bei Aufgabe B gut zu sein und gleichzeitig ähnliche Antworten auf die Antworten von . Das Gute ist, dass dieser Ansatz sehr einfach zu implementieren ist: Sobald Sie gelernt , können wir dieses Modell verwenden, um eine unendliche Anzahl von "markierten" Beispielen zu generieren . Wenn wir dann das fein abgestimmte Modell trainieren, wechseln wir zwischen Beispielen für Aufgabe B und Beispielen für die Form . Sie können sich Letzteres als "Revisionsübungen" vorstellen, die sicherstellen, dass unser Netzwerk nicht die Fähigkeit verliert, Aufgabe A zu handhaben, während Sie lernen, mit Aufgabe B umzugehen .fθAθA(x,fθA(x))(x,fθA(x))
Ein noch besserer Ansatz: Speicher hinzufügen . Als Menschen sind wir gut darin, anhand neuer Beispiele zu verallgemeinern (Plastizität) und uns an sehr seltene Ereignisse zu erinnern oder Fähigkeiten beizubehalten, die wir eine Weile nicht genutzt haben (Stabilität). In vielerlei Hinsicht besteht die einzige Methode, um mit tiefen neuronalen Netzen, wie wir sie kennen, etwas Ähnliches zu erreichen, darin, irgendeine Form von "Gedächtnis" in sie zu integrieren. Dies liegt außerhalb des Rahmens Ihrer Frage, aber es ist ein interessantes und aktives Forschungsfeld, daher würde ich es erwähnen. Siehe dieses Beispiel der jüngsten Arbeit: LERNEN, SICH AN SELTENE EREIGNISSE ZU ERINNERN .