1
In welchem Verhältnis stehen Q-Learning-Methoden und Methoden mit politischen Verläufen?
Nach meinem Verständnis sind Q-Learning und Policy Gradients (PG) die beiden wichtigsten Ansätze zur Lösung von RL-Problemen. Während Q-Learning darauf abzielt, die Belohnung einer bestimmten Maßnahme in einem bestimmten Zustand vorherzusagen, prognostizieren Gradienten der Politik die Maßnahme selbst direkt. Beide Ansätze erscheinen mir jedoch identisch, dh die Vorhersage der maximalen …