Nach meinem Verständnis sind Q-Learning und Policy Gradients (PG) die beiden wichtigsten Ansätze zur Lösung von RL-Problemen. Während Q-Learning darauf abzielt, die Belohnung einer bestimmten Maßnahme in einem bestimmten Zustand vorherzusagen, prognostizieren Gradienten der Politik die Maßnahme selbst direkt.
Beide Ansätze erscheinen mir jedoch identisch, dh die Vorhersage der maximalen Belohnung für eine Aktion (Q-Learning) entspricht der Vorhersage der Wahrscheinlichkeit, dass die Aktion direkt durchgeführt wird (PG). Unterscheidet sich die Art und Weise, in der der Verlust rückpropagiert wird?