SARSA und Q Learning sind beide Verstärkungslernalgorithmen, die auf ähnliche Weise funktionieren. Der auffälligste Unterschied ist, dass SARSA in der Politik ist, während Q Learning nicht in der Politik ist. Die Update-Regeln lauten wie folgt:
Q Lernen:
SARSA:
Dabei sind und r_t Zustand, Aktion und Belohnung zum Zeitpunkt t, und \ gamma ist ein Abzinsungsfaktor.
Sie sehen meistens gleich aus, mit der Ausnahme, dass wir in SARSA tatsächliche Maßnahmen ergreifen und in Q Learning die Maßnahmen mit der höchsten Belohnung ergreifen.
Gibt es theoretische oder praktische Rahmenbedingungen, in denen man den anderen vorziehen sollte? Ich kann sehen, dass das Maximieren von Q-Learning in Bereichen mit kontinuierlichen Aktionen sehr kostspielig sein kann. Aber gibt es noch etwas?