Was ist eine intuitive Erklärung für Echo State Networks?

17

Ich bin neu bei Recurrent Neural Networks (RNN) und lerne immer noch die Konzepte. Ich verstehe auf abstrakter Ebene, dass ein Echo State Network (ESN) eine Folge von Eingaben, dh ein Signal, (erneut) erzeugen kann , selbst nachdem die Eingabe entfernt wurde. Ich fand den Artikel in Scholarpedia jedoch zu schwierig, um ihn vollständig zu erfassen und zu verstehen.

Kann mir bitte jemand erklären, wie das Lernen in möglichst einfacher Form mathematisch funktioniert.

neural-networks

— tejaskhot
quelle

17

Ein Echo State Network ist eine Instanz des allgemeineren Konzepts von Reservoir Computing . Die Grundidee des ESN besteht darin, die Vorteile eines RNN zu nutzen (eine Folge von Eingaben zu verarbeiten, die voneinander abhängig sind, dh Zeitabhängigkeiten wie ein Signal), jedoch ohne die Probleme, ein traditionelles RNN wie das Problem des verschwindenden Gradienten zu trainieren .

ESNs erreichen dies, indem sie über ein relativ großes Reservoir von spärlich verbundenen Neuronen verfügen, die eine Sigmoid-Transfer-Funktion verwenden (im Verhältnis zur Eingangsgröße etwa 100-1000 Einheiten). Die Anschlüsse im Reservoir werden einmal vergeben und sind völlig zufällig; Die Behältergewichte werden nicht trainiert. Eingangsneuronen sind mit dem Reservoir verbunden und speisen die Eingangsaktivierungen in das Reservoir ein - auch diesen werden ungeübte Zufallsgewichte zugewiesen. Die einzigen trainierten Gewichte sind die Ausgangsgewichte, die das Reservoir mit den Ausgangsneuronen verbinden.

Während des Trainings werden die Eingaben dem Reservoir zugeführt und eine Lehrerausgabe wird an die Ausgabeeinheiten angelegt. Die Reservoirzustände werden über die Zeit erfasst und gespeichert. Sobald alle Trainingseingaben angewendet wurden, kann eine einfache Anwendung der linearen Regression zwischen den erfassten Reservoirzuständen und den Zielausgaben verwendet werden. Diese Ausgabegewichte können dann in das vorhandene Netzwerk integriert und für neuartige Eingaben verwendet werden.

Die Idee ist, dass die spärlichen zufälligen Verbindungen im Reservoir es früheren Zuständen ermöglichen, auch nach ihrem Durchgang "Echo" zu erzeugen, sodass die Dynamik im Reservoir einsetzt, wenn das Netzwerk eine neuartige Eingabe empfängt, die etwas ähnelt, auf das es trainiert hat Folgen Sie dem Aktivierungsverlauf, der für die Eingabe geeignet ist, und stellen Sie auf diese Weise ein passendes Signal für das Training bereit. Wenn es gut trainiert ist, kann es anhand der sinnvollen Aktivierungsverläufe verallgemeinern, was es bereits gesehen hat gegeben das Eingangssignal, das den Vorratsbehälter antreibt.

Der Vorteil dieses Ansatzes liegt in der unglaublich einfachen Trainingsprozedur, da die meisten Gewichte nur einmal und zufällig vergeben werden. Sie sind jedoch in der Lage, komplexe Dynamiken über die Zeit zu erfassen und Eigenschaften dynamischer Systeme zu modellieren. Die mit Abstand hilfreichsten Artikel, die ich zu ESN gefunden habe, sind:

Ein Tutorial zum Training von RNNs von Herbert Jaeger (Kurator der Scholarpedia-Seite zu ESNs)
Ein praktischer Leitfaden zur Anwendung von Echo State Networks von Mantas Lukoševičius

Beide haben leicht verständliche Erklärungen, die mit dem Formalismus einhergehen, und hervorragende Ratschläge für die Erstellung einer Implementierung mit Anleitungen für die Auswahl geeigneter Parameterwerte.

UPDATE: Das Deep Learning-Buch von Goodfellow, Bengio und Courville enthält eine etwas detailliertere, aber immer noch nette Diskussion auf hoher Ebene über Echo State Networks. In Abschnitt 10.7 werden das Problem des verschwindenden (und explodierenden) Gradienten und die Schwierigkeiten beim Erlernen langfristiger Abhängigkeiten erörtert. Abschnitt 10.8 befasst sich mit Echo State Networks. Im Einzelnen wird erläutert, warum die Auswahl von Reservoirgewichten mit einem geeigneten Spektralradius von entscheidender Bedeutung ist. Zusammen mit den nichtlinearen Aktivierungseinheiten fördert dies die Stabilität und sorgt gleichzeitig für die Weitergabe von Informationen über die Zeit.

— Adamconkey
quelle

1

Das Lernen in einem ESN ist nicht primär gezwungen, Gewichte anzupassen, vielmehr lernt die Ausgabeebene, welche Ausgabe für den aktuellen Status des Netzwerks erzeugt werden soll. Der interne Zustand basiert auf der Netzwerkdynamik und wird als dynamischer Reservoirzustand bezeichnet. Um zu verstehen, wie sich die Reservoirzustände ausbilden, müssen wir die Topologie eines ESN betrachten.

Die Eingabeeinheit (en) sind mit Neuronen in den internen Einheiten (Speichereinheiten) verbunden, die Gewichte werden zufällig initialisiert. Die Speichereinheiten sind zufällig und dünn miteinander verbunden und haben auch zufällige Gewichte. Die Ausgabeeinheit ist ebenfalls mit allen Reservoireinheiten verbunden, erhält also den Reservoirzustand und erzeugt eine entsprechende Ausgabe.

Die Eingangsaktivierung erhöht die Netzwerkdynamik. Das Signal schwimmt Zeitschritte durch die wiederkehrenden Einheiten angeschlossenen Reservoir. Sie können es sich als ein Echo vorstellen, das mal im Netz auftritt (was verzerrt wird). Die einzigen Gewichte, die angepasst werden, sind die Gewichte der Ausgabeeinheit. Dies bedeutet, dass die Ausgabeschicht lernt, welche Ausgabe zu einem bestimmten Reservoirzustand gehören muss. Das bedeutet auch, dass das Training zu einer linearen Regressionsaufgabe wird. $t$ $t$

Bevor wir erklären können, wie das Training im Detail funktioniert, müssen wir einige Dinge erklären und definieren:

Teacher Forcing bedeutet das Einspeisen von Zeitreihen in das Netzwerk sowie die entsprechende gewünschte Ausgabe (zeitverzögert). Die Rückkopplung des gewünschten Ausgangs von bei wird Ausgangsrückkopplung genannt. Wir brauchen daher einige zufällig initialisierte Gewichte, die in der Matrix gespeichert sind . In Abbildung 1 werden diese Kanten mit gepunkteten Pfeilen angezeigt. $T$ $t$ $W_{fb}$

Variable Definitionen:

$r$
$o$
$t$
$o$
$T$ $t$ $o$

Und wie läuft das Training im Detail ab?

$t$ $M$ $t$ $r$
$W_{out}$ $M \bullet W_{out} = T -> W_{out} = M \bullet T^{-1}$

Da das Lernen sehr schnell ist, können wir viele Netzwerktopologien ausprobieren, um eine zu finden, die gut passt.

So messen Sie die Leistung eines ESN:

$W_{fb}$
Rekordleistung, z. B. Fehlerquadrat $\left|\left|M \bullet W_{out} – T\right|\right|^2$

Spektraler Radius und ESN

Spec-tral $1$

— verrückt
quelle