Was ist der Unterschied zwischen off-policy und on-policy Lernen?


79

Die Website für künstliche Intelligenz definiert das Lernen außerhalb der Politik und innerhalb der Politik wie folgt:

"Ein außervertraglicher Lernender lernt den Wert der optimalen Richtlinie unabhängig von den Aktionen des Agenten. Q-Learning ist ein außervertraglicher Lernender. Ein außervertraglicher Lernender lernt den Wert der Richtlinie, die vom Agenten ausgeführt wird, einschließlich der Explorationsschritte . "

Ich möchte Sie diesbezüglich um Klarstellung bitten, da sie für mich keinen Unterschied zu machen scheinen. Beide Definitionen scheinen identisch zu sein. Was ich tatsächlich verstanden habe, ist das modellfreie und modellbasierte Lernen, und ich weiß nicht, ob sie etwas mit den fraglichen zu tun haben.

Wie ist es möglich, dass die optimale Richtlinie unabhängig von den Aktionen des Agenten gelernt wird? Wird die Richtlinie nicht gelernt, wenn der Agent die Aktionen ausführt?


1
Ich habe einen Kommentar zu stackoverflow.com/questions/6848828/… hinzugefügt , der TL; NR- Teil könnte auch beim Verständnis hilfreich sein.
Zyxue

Hier ist eine gute Erklärung nb4799.neu.edu/wordpress/?p=1850
Ivan Kush

Ich möchte auch hinzufügen, dass es eine Off-Policy-Variante von SARSA gibt. In diesem Artikel ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) werden die Richtlinien in der Einführung ein- und ausgeschaltet und anschließend die erwartete Sarsa erläutert. Schauen Sie sich auch die erwarteten Gradienten (EPG) an, um eine allgemeinere Theorie zu finden, die die beiden Typen miteinander verzahnt.
Josh Albert

Antworten:


94

Erstens gibt es keinen Grund, warum ein Agent die gierige Aktion ausführen muss . Agenten können nach Optionen suchen oder ihnen folgen . Dies ist nicht das, was das Lernen außerhalb der Politik vom Lernen innerhalb der Politik trennt.

Der Grund, warum Q-Learning nicht in der Politik ist, besteht darin, dass es seine Q-Werte unter Verwendung des Q-Werts des nächsten Zustands s und der gierigen Aktion a aktualisiert . Mit anderen Worten, er schätzt die Rendite (abgezinste zukünftige Gesamtbelohnung) für Handlungspaare unter der Annahme, dass eine gierige Politik befolgt wurde, obwohl sie keiner gierigen Politik folgt.

sa

Die Unterscheidung verschwindet, wenn die aktuelle Richtlinie eine gierige Richtlinie ist. Ein solcher Agent wäre jedoch nicht gut, da er niemals untersucht.

Haben Sie sich das kostenlose Online-Buch angesehen? Richard S. Sutton und Andrew G. Barto. Reinforcement Learning: Eine Einführung. Zweite Ausgabe, MIT Press, Cambridge, MA, 2018.


8
schöne erklärung! Ihr Beispiel für Q-Learning ist besser formuliert als das in Suttons Buch, in dem es heißt: " Die erlernte Aktionswertfunktion Q approximiert direkt Q *, die optimale Aktionswertfunktion, unabhängig von der angewendeten Richtlinie. Dies vereinfacht das dramatisch Analyse des Algorithmus und aktivierte frühe Konvergenzbeweise. Die Richtlinie hat immer noch eine Auswirkung dahingehend, dass bestimmt wird, welche State-Action-Paare besucht und aktualisiert werden. "
Ciprian Tomoiagă

3
Im Allgemeinen finde ich Sutton und Barto überhaupt nicht gut lesbar. Ich finde die Erklärungen, die sie anbieten, nicht sehr nachvollziehbar. Ich bin nicht sicher, warum ihr Buch überall empfohlen wird
SN

@SN Sutton und Barto sind für viele Schüler des Vertiefungslernens das erste Buch, das sie lesen.
Neil G

3
@JakubArnold Das ursprüngliche Sutton & Barto-Buch stammt aus dem Jahr 1998 und befasst sich nicht mit vertieftem Lernen. In der 2. Ausgabe werden nur Dinge wie AlphaGo erwähnt, der Schwerpunkt des Buches liegt jedoch auf klassischeren Ansätzen. Wenn Sie mehr RL-Ressourcen benötigen, sehen Sie sich diese Liste an . Ich schlage David Silvers Videos und Putermans Buch vor, da sie zugänglicher sind. Für mehr theoretisches Material empfehle ich die Bücher von Bertsekas. Auf der Spinning Up-Website finden Sie DRL-Algorithmen und Links zu Originalarbeiten.
Douglas De Rizzo Meneghetti

1
@ AlbertChen "In diesem Fall kommt es also auf die Erkundung an oder nicht": Nein, da beide Algorithmen die Erkundung durchführen. Der Unterschied besteht darin, wie Q aktualisiert wird.
Neil G

13

Richtlinienmethoden schätzen den Wert einer Richtlinie, während sie zur Steuerung verwendet werden.

Bei Methoden außerhalb der Richtlinie kann die zum Generieren von Verhalten verwendete Richtlinie, die so genannte Verhaltensrichtlinie , in keinem Zusammenhang mit der Richtlinie stehen, die bewertet und verbessert wird, die so genannte Schätzrichtlinie .

Ein Vorteil dieser Trennung besteht darin, dass die Schätzungsrichtlinie deterministisch sein kann (z. B. gierig), während die Verhaltensrichtlinie weiterhin alle möglichen Aktionen abtasten kann.

Weitere Einzelheiten finden Sie in den Abschnitten 5.4 und 5.6 des Buches Reinforcement Learning: Eine Einführung von Barto und Sutton, erste Ausgabe.


7

Der Unterschied zwischen den Methoden Off-Policy und On-Policy besteht darin, dass sich Ihr Agent beim ersten Mal, wenn Sie keine bestimmte Richtlinie einhalten müssen, möglicherweise sogar zufällig verhält. Trotzdem können die Methoden Off-Policy immer noch die optimale Richtlinie finden. Auf der anderen Seite hängen die Richtlinienmethoden von der verwendeten Richtlinie ab. Im Fall von Q-Learning, das außerhalb der Richtlinien liegt, wird die optimale Richtlinie unabhängig von der Richtlinie ermittelt, die während der Exploration verwendet wird. Dies gilt jedoch nur, wenn Sie die verschiedenen Status ausreichend oft besuchen. Sie können in der Originalarbeit von Watkins den tatsächlichen Beweis finden, der diese sehr schöne Eigenschaft von Q-Learning zeigt. Es gibt jedoch einen Kompromiss, und das ist, dass Methoden außerhalb der Politik langsamer sind als Methoden innerhalb der Politik. Hier ein Link zu einer anderen interessanten Zusammenfassung der Eigenschaften beider Arten von Methoden


1
Off-Policy-Methoden sind nicht nur langsamer, sondern können in Kombination mit Bootstrapping (dh wie Q-Learning Schätzungen voneinander erstellt) und Funktionsapproximatoren (z. B. neuronale Netze) instabil sein.
Neil Slater

7

π
einsπeins


Q.(s,ein)eins
ππ(ein|s)

Q.(s,ein)


Q.(s,ein)π
Q.(s,ein)

Q.(s,ein)Q.(s,ein)+α(r+γQ.(s,ein)-Q.(s,ein))einπ

Q.(s,ein)Q.(s,ein)+α(r+γmaxeinQ.(s,ein)-Q.(s,ein))eins


1

Aus dem Sutton-Buch: "Der Ansatz für Richtlinien im vorhergehenden Abschnitt ist eigentlich ein Kompromiss - er lernt Aktionswerte nicht für die optimale Richtlinie, sondern für eine nahezu optimale Richtlinie, die noch untersucht wird. Ein einfacherer Ansatz besteht darin, zwei Richtlinien zu verwenden Eine, über die gelernt wird und die zur optimalen Richtlinie wird, und eine, die genauer untersucht und zum Generieren von Verhalten verwendet wird. Die Richtlinie, über die gelernt wird, wird als Zielrichtlinie bezeichnet, und die Richtlinie, die zum Generieren von Verhalten verwendet wird, wird als Verhaltensrichtlinie bezeichnet. In diesem Fall sagen wir, dass das Lernen aus Daten erfolgt, die der Zielrichtlinie entsprechen, und dass der Gesamtprozess als "Lernen ohne Richtlinien" bezeichnet wird. "


Wenn Sie dieser Beschreibung folgen, ist es nicht einfach zu sagen, warum Q-Learning nicht in der Politik ist
Albert Chen
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.