Unterschied zwischen Advantage Actor Critic und TD Actor Critic?

7

Ich habe eine Frage zu Methoden der Schauspielerkritik beim Lernen zur Stärkung.

In diesen Folien ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) werden verschiedene Arten von Schauspieler-Kritikern erläutert. Vorteil Schauspieler Kritiker und TD Schauspieler Kritiker werden auf der letzten Folie erwähnt:

Wenn ich mir aber die Folie "Schätzen der Vorteilsfunktion (2)" anschaue, heißt es, dass die Vorteilsfunktion durch den td-Fehler angenähert werden kann. Dann enthält die Aktualisierungsregel den td-Fehler auf dieselbe Weise wie bei TD Actor Critical.

Also ist Vorteilsschauspielerkritiker und td Schauspielerkritiker eigentlich gleich? Oder gibt es einen Unterschied, den ich nicht sehe?

reinforcement-learning

— needRhelp
quelle

0

Der Vorteil kann durch einen TD-Fehler angenähert werden. Dies kann insbesondere dann hilfreich sein, wenn Sie ein Update durchführen möchten $\theta$ nach jedem Übergang.

Für die Batch-Ansätze können Sie berechnen $Q_w(A,S)$ zB mittels angepasster Q-Iteration und anschließend $V(S)$ . Auf diese Weise haben Sie die allgemeine Vorteilsfunktion und Ihre Gradientenänderung der Richtlinie ist möglicherweise viel stabiler, da sie näher an der globalen / tatsächlichen Vorteilsfunktion liegt.

— Karel Macek
quelle

0

Sie sind anders. Vorteil ist der Unterschied zwischen Aktionswert und Zustandswert. TD-Fehler ist der Fehlerterm, den die Wertfunktion minimieren möchte.

Der TD-Fehler kann verwendet werden, um den Vorteil zu approximieren. Es gibt auch andere Möglichkeiten, den Vorteil zu approximieren, wie z (return - state_value).

— SQ
quelle