Ich habe gelesen , DeepMind Ataris Google Papier und ich versuche , das Konzept der „Erfahrung replay“ zu verstehen. Die Wiederholung von Erfahrungen ist in vielen anderen Lernpapieren zur Verstärkung enthalten (insbesondere im AlphaGo-Papier), daher möchte ich verstehen, wie es funktioniert. Nachfolgend einige Auszüge.
Zunächst verwendeten wir einen biologisch inspirierten Mechanismus, der als Erfahrungswiederholung bezeichnet wird und die Daten zufällig sortiert, wodurch Korrelationen in der Beobachtungssequenz beseitigt und Änderungen in der Datenverteilung geglättet werden.
Das Papier wird dann wie folgt ausgearbeitet:
Während es andere stabile Methoden zum Trainieren neuronaler Netze in der Umgebung des Verstärkungslernens gibt, wie z. B. neuronale angepasste Q-Iteration, umfassen diese Methoden das wiederholte Trainieren von Networks de novo mit Hunderten von Iterationen. Folglich sind diese Methoden im Gegensatz zu unserem Algorithmus zu ineffizient, um mit großen neuronalen Netzen erfolgreich verwendet zu werden. Wir parametrisieren eine Näherungswertfunktion Verwendung des in 1 gezeigten neuronalen Netzwerks mit tiefer Faltung, wobei die Parameter ( Gewichte) des Q-Netzwerks bei der Iteration zu jedem Zeitschritt . Um eine Wiederholung der Erfahrung durchzuführen, speichern wir die Erfahrungen des Agenten in einem Datensatz . Während des Lernens wenden wir Q-Learning-Aktualisierungen auf Stichproben (oder Mini-Chargen) von Erfahrungswerten , die gleichmäßig und zufällig aus dem Pool gespeicherter Stichproben gezogen werden. Das Q-Learning - Update bei der Iteration verwendet die folgende Verlustfunktion:
Was ist Experience Replay und was bringt es für Laien?