Warum ist die Grundlinie zu einem bestimmten Zeitpunkt unvoreingenommen vom Zustand abhängig?

In der Robotik wird die Verstärkunglerntechnik verwendet, um das Steuermuster für einen Roboter zu finden. Leider sind die meisten Methoden mit politischem Gradienten statistisch voreingenommen, was den Roboter in eine unsichere Situation bringen könnte, siehe Seite 2 in Jan Peters und Stefan Schaal: Verstärktes Erlernen motorischer Fähigkeiten mit politischen Gradienten, 2008

Mit motorischem primitivem Lernen ist es möglich, das Problem zu überwinden, da die Optimierung von Richtliniengradientenparametern die Lernschritte in das Ziel lenkt.

Zitat: „Wenn die Gradientenschätzung unvoreingenommen ist und die Lernraten die Summe (a) = 0 erfüllen, konvergiert der Lernprozess garantiert auf mindestens ein lokales Minimum [...]. Daher müssen wir den Gradienten der Richtlinie nur anhand der generierten Daten schätzen während der Ausführung einer Aufgabe. ”(Seite 4 desselben Papiers)

In den Hausaufgaben für die Berkeley RL-Klasse Problem 1 werden Sie aufgefordert zu zeigen, dass der Richtliniengradient immer noch unverzerrt ist, wenn die subtrahierte Basislinie eine Funktion des Zustands zum Zeitpunkt t ist.

▽_{θ} \sum_{t = 1}^{T} E_{(s_{t}, a_{t}) \sim p (s_{t}, a_{t})} [b (s_{t})]] = 0

$\triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0$

Ich kämpfe mich durch den ersten Schritt eines solchen Beweises. Kann mich jemand in die richtige Richtung weisen? Mein erster Gedanke war, irgendwie das Gesetz der totalen Erwartung zu verwenden, um die Erwartung von b (st) von T abhängig zu machen, aber ich bin mir nicht sicher. Danke im Voraus :)

_{Link zum ursprünglichen PNG der Gleichung}

reinforcement-learning

— Laura C.
quelle

Willkommen bei SE: AI! (Ich habe mir

— erlaubt

Sie haben nicht wirklich viel Zeit, um die genauen Gleichungen aufzuschreiben und mit LaTeX zu formatieren (möglicherweise später, wenn sie immer noch nicht beantwortet werden), aber hier ist ein Hinweis. Sie möchten, dass die Summe nicht von der Richtlinie abhängt, sodass die Ableitung 0 ist. Sie versuchen also irgendwie, Dinge mit der Richtlinie p (s, a) auszudrücken. Die Antwort finden Sie übrigens auch in Suttons RL Intro-Buch im Kapitel Policy Gradient.

— Hai Nguyen

Vielen Dank! Ich werde diesen Hinweis verwenden, um loszulegen, und ich danke Ihnen, dass Sie mir davon erzählt haben, dass er in Sutton RL ist. Ich lese dieses Buch und es ist ziemlich gut!

— Laura C

@LauraC Wenn Sie die Antwort vor allen anderen finden, kommen Sie bitte zurück und posten Sie hier als formelle Antwort (Leute mögen diese Frage definitiv :)

— DukeZhou

Ich habe Kontextinformationen für die Frage hinzugefügt.

— Manuel Rodriguez

Antworten:

Unter Verwendung des Gesetzes der iterierten Erwartungen hat man:

$\triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = \nabla_\theta \sum_{t=1}^T \mathbb{E}_{s_t \sim p(s_t)} \left[ \mathbb{E}_{a_t \sim \pi_\theta(a_t | s_t)} \left[ b(s_t) \right]\right] =$

geschrieben mit Integralen und Verschieben des Gradienten nach innen (Linearität) erhalten Sie

$= \sum_{t=1}^T \int_{s_t} p(s_t) \left(\int_{a_t} \nabla_\theta b(s_t) \pi_\theta(a_t | s_t) da_t \right)ds_t =$

Sie können nun $\nabla_\theta$ (aufgrund der Linearität) bewegen und $b(s_t)$ (hängt nicht von $a_t$ ) bilden das innere Integral zum äußeren:

$= \sum_{t=1}^T \int_{s_t} p(s_t) b(s_t) \nabla_\theta \left(\int_{a_t} \pi_\theta(a_t | s_t) da_t \right)ds_t=$

$\pi_\theta(a_t | s_t)$ ist eine (bedingte) Wahrscheinlichkeitsdichtefunktion, so dass die Integration über alle $a_t$ für einen gegebenen festen Zustand $s_t$ gleich $1$ :

$= \sum_{t=1}^T \int_{s_t} p(s_t) b(s_t) \nabla_\theta 1 ds_t =$

Jetzt ist $\nabla_\theta1 = 0$ , was den Beweis abschließt.

— Andrei Poehlmann
quelle

Es scheint , dass die Hausaufgaben 2 Tage vor dieser Antwort des Schreibens zurückzuführen war, aber in Fall ist es immer noch relevant in irgendeiner Weise, die relevanten Klasse Noten (die nützlich gewesen wäre , wenn zusammen mit den Hausaufgaben in der Frage zur Verfügung gestellt) sind hier .

$\mathbb{E}_{\tau \sim p \theta(\tau)}$

$\sum_{t = 1}^{T} E_{\tau \sim p \theta(\tau)} [\nabla_\theta \log \pi_\theta(a_t|s_t)(b(s_t))] = 0$

$\pi_\theta(a_t|s_t)$ als den Rand der Zustandsaktion. Es handelt sich nicht um einen gesuchten Beweis, sondern um eine Abfolge von algebraischen Schritten, um die Entkopplung durchzuführen und zu zeigen, inwieweit die Unabhängigkeit des Randes der staatlichen Aktion erreicht werden kann.

Diese Übung ist eine Vorbereitung für den nächsten Schritt in den Hausaufgaben und stützt sich nur auf den Rückblick auf CS189, Burkeleys Einführung in das maschinelle Lernen, dessen Lehrplan oder Klassennotizen nicht das Gesetz der totalen Erwartung enthalten.

Alle relevanten Informationen finden Sie im obigen Link für Klassennotizen und erfordern nur Zwischenalgebra.

— Douglas Daseeco
quelle