Wie funktioniert die allgemeine Vorteilsschätzung?


8

Ich habe schon seit einiger Zeit versucht, GAE zu meiner A2C-Implementierung hinzuzufügen , aber ich kann nicht ganz verstehen, wie es funktioniert.

Mein Verständnis davon ist, dass es die Varianz der Vorteilsschätzungsfunktion reduziert, indem die Vorteile basierend auf den Werten im Rollout "gemittelt" (oder verallgemeinert) werden.

Ich habe versucht, die Mathematik alleine durchzuarbeiten, und am Ende hatte ich nur einen Vorteil für den gesamten Rollout, stimmt das? Normalerweise haben wir einen Vorteil für jeden Zeitschritt im Rollout.

Kann jemand eine Erklärung zur Intuition von GAE geben?

Antworten:


7

Ich fand die Erklärung der GAE im ergänzenden Material dieses Papiers sehr intuitiv: DeepMimic . Sie müssen die Zeitung nicht lesen. Gehen Sie einfach direkt zum Abschnitt mit ergänzendem Material auf Seite 143: 15. Für die λ-Rückkehr finden Sie viele Informationen im Reinforcement Learning-Buch von Sutton und Barto. Ich hoffe es hilft!


1
Guter Fang, das ist die klarste Erklärung für λ-return, die ich bisher gelesen habe!
MasterScrat

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.