Als «policy-gradients» getaggte Fragen

1
In welchem ​​Verhältnis stehen Q-Learning-Methoden und Methoden mit politischen Verläufen?
Nach meinem Verständnis sind Q-Learning und Policy Gradients (PG) die beiden wichtigsten Ansätze zur Lösung von RL-Problemen. Während Q-Learning darauf abzielt, die Belohnung einer bestimmten Maßnahme in einem bestimmten Zustand vorherzusagen, prognostizieren Gradienten der Politik die Maßnahme selbst direkt. Beide Ansätze erscheinen mir jedoch identisch, dh die Vorhersage der maximalen …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.