Wann sollten Sie SARSA vs. Q Learning wählen?


18

SARSA und Q Learning sind beide Verstärkungslernalgorithmen, die auf ähnliche Weise funktionieren. Der auffälligste Unterschied ist, dass SARSA in der Politik ist, während Q Learning nicht in der Politik ist. Die Update-Regeln lauten wie folgt:

Q Lernen:

Q.(st,eint)Q.(st,eint)+α[rt+1+γmaxeinQ.(st+1,ein)-Q.(st,eint)]

SARSA:

Q.(st,eint)Q.(st,eint)+α[rt+1+γQ.(st+1,eint+1)-Q.(st,eint)]

Dabei sind und r_t Zustand, Aktion und Belohnung zum Zeitpunkt t, und \ gamma ist ein Abzinsungsfaktor.st,eintrttγ

Sie sehen meistens gleich aus, mit der Ausnahme, dass wir in SARSA tatsächliche Maßnahmen ergreifen und in Q Learning die Maßnahmen mit der höchsten Belohnung ergreifen.

Gibt es theoretische oder praktische Rahmenbedingungen, in denen man den anderen vorziehen sollte? Ich kann sehen, dass das Maximieren von Q-Learning in Bereichen mit kontinuierlichen Aktionen sehr kostspielig sein kann. Aber gibt es noch etwas?


In fortlaufenden Aktionsbereichen werden häufig direkte Richtliniensuchmethoden wie verschiedene Richtliniengradientenmethoden verwendet, da - wie Sie herausgefunden haben - das Verwalten und Bewerten einer Funktion mit diskreten Werten für einen fortlaufenden Aktionsbereich unpraktisch ist, insbesondere wenn der Aktionsbereich viele Dimensionen aufweist (Wegen des Fluchs der Dimensionalität ).
HelloGoodbye

Antworten:


27

Sie sehen meistens gleich aus, mit der Ausnahme, dass wir in SARSA tatsächliche Maßnahmen ergreifen und in Q Learning die Maßnahmen mit der höchsten Belohnung ergreifen.

Tatsächlich "nehmen" Sie in beiden Nächstes die tatsächlich einzelne generierte Aktion . Beim Q-Learning aktualisieren Sie die Schätzung anhand der maximalen Schätzung möglicher nächster Aktionen, unabhängig davon, welche Aktion Sie durchgeführt haben. Während Sie sich in SARSA befinden, aktualisieren Sie Schätzungen basierend auf und führen die gleichen Aktionen aus.eint+1

Dies ist wahrscheinlich das, was Sie mit "nehmen" in der Frage gemeint haben, aber in der Literatur bedeutet das Ergreifen einer Aktion, dass sie den Wert von zB annimmt und , .eintrt+1st+1

Gibt es theoretische oder praktische Rahmenbedingungen, in denen man den anderen vorziehen sollte?

Q-Learning hat gegenüber SARSA folgende Vor- und Nachteile:

  • Q-Learning lernt direkt die optimale Strategie, während SARSA beim Erkunden eine nahezu optimale Strategie lernt. Wenn Sie mithilfe von SARSA eine optimale Strategie erlernen möchten, müssen Sie sich für eine Strategie entscheiden, mit der Sie in -greedy action choice zerlegen können.ϵϵ

  • Q-Learning (und außerbetriebliches Lernen im Allgemeinen) weist eine höhere Varianz pro Stichprobe auf als SARSA und kann daher unter Konvergenzproblemen leiden. Dies stellt ein Problem dar, wenn neuronale Netze über Q-Learning trainiert werden.

  • SARSA wird sich der Konvergenz annähern und mögliche Strafen aufgrund von Erkundungsmaßnahmen berücksichtigen , während Q-Learning diese ignoriert. Das macht SARSA konservativer - wenn das Risiko einer großen negativen Belohnung in der Nähe des optimalen Pfades besteht, wird Q-Learning diese Belohnung beim Erkunden auslösen, während SARSA einen gefährlichen optimalen Pfad meidet und nur langsam lernt, ihn zu verwenden wenn die Explorationsparameter reduziert werden. Das klassische Spielzeugproblem, das diesen Effekt demonstriert, heißt Cliff Walking .

In der Praxis kann der letzte Punkt einen großen Unterschied ausmachen, wenn Fehler kostspielig sind - z. B. trainieren Sie einen Roboter nicht in der Simulation, sondern in der realen Welt. Möglicherweise bevorzugen Sie einen konservativeren Lernalgorithmus, der ein hohes Risiko vermeidet, wenn bei einer Beschädigung des Roboters Echtzeit und Geld auf dem Spiel standen.

Wenn es Ihr Ziel ist, einen optimalen Agenten in der Simulation oder in einer kostengünstigen und schnell durchlaufenden Umgebung zu schulen, ist Q-Learning aufgrund des ersten Punkts (direktes Erlernen der optimalen Richtlinien) eine gute Wahl. Wenn Ihr Agent online lernt und Ihnen die während des Lernens erzielten Belohnungen wichtig sind, ist SARSA möglicherweise die bessere Wahl.


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.