Wie funktioniert die allgemeine Vorteilsschätzung?

8

Ich habe schon seit einiger Zeit versucht, GAE zu meiner A2C-Implementierung hinzuzufügen , aber ich kann nicht ganz verstehen, wie es funktioniert.

Mein Verständnis davon ist, dass es die Varianz der Vorteilsschätzungsfunktion reduziert, indem die Vorteile basierend auf den Werten im Rollout "gemittelt" (oder verallgemeinert) werden.

Ich habe versucht, die Mathematik alleine durchzuarbeiten, und am Ende hatte ich nur einen Vorteil für den gesamten Rollout, stimmt das? Normalerweise haben wir einen Vorteil für jeden Zeitschritt im Rollout.

Kann jemand eine Erklärung zur Intuition von GAE geben?

machine-learning reinforcement-learning

— Omegastick
quelle

7

Ich fand die Erklärung der GAE im ergänzenden Material dieses Papiers sehr intuitiv: DeepMimic . Sie müssen die Zeitung nicht lesen. Gehen Sie einfach direkt zum Abschnitt mit ergänzendem Material auf Seite 143: 15. Für die λ-Rückkehr finden Sie viele Informationen im Reinforcement Learning-Buch von Sutton und Barto. Ich hoffe es hilft!

— Constantinos
quelle

1

Guter Fang, das ist die klarste Erklärung für λ-return, die ich bisher gelesen habe!

— MasterScrat

1

Eine gute Erklärung für λ-return finden Sie in Lilian Wengs Blog: Kombination von TD- und MC-Lernen .

Der Generalized Advantage Estimator GAE (λ) verwendet einfach λ-return, um die Vorteilsfunktion zu schätzen.

— MasterScrat
quelle