In dem Artikel, in dem DQN " Atari spielen mit tiefem Verstärkungslernen " vorgestellt wurde, wurde Folgendes erwähnt:
Beachten Sie, dass beim Lernen durch Wiederholung von Erfahrungen das Lernen außerhalb der Richtlinien erforderlich ist (da sich unsere aktuellen Parameter von denen unterscheiden, die zum Generieren der Stichprobe verwendet wurden), was die Wahl von Q-Learning motiviert.
Ich habe nicht ganz verstanden, was es bedeutet. Was ist, wenn wir SARSA verwenden und uns die Aktion a'
für die Aktion merken, die wir s'
in unserem Speicher ausführen sollen, und dann Stapel daraus abtasten und Q aktualisieren, wie wir es in DQN getan haben? Und können schauspieler-kritische Methoden (A3C) Erfahrungswiedergaben verwenden? Wenn nein, warum?
(s, a, r, s')
und ziehe diese Erfahrung für die Wiedergabe heran. Jetzt ist meine derzeitige Politik sagt : Angenommen , Sie nehmen solltena'
aufs'
, dann ich ZeichenQ(s, a)
sollter + Q(s', a')
und Gradientenabfallsaktualisierung tun. Ich glaube, ich habe Erfahrung damit, die Richtlinien zu wiederholen. Gibt es ein Problem mit dem Prozess?