Ist eine Politik beim verstärkten Lernen immer deterministisch?

Ist eine Politik beim verstärkten Lernen immer deterministisch oder ist es eine Wahrscheinlichkeitsverteilung über Aktionen (aus denen wir eine Stichprobe ziehen)? Wenn die Richtlinie deterministisch ist, warum nicht die Wertfunktion, die in einem bestimmten Zustand für eine bestimmte Richtlinie wie folgt definiert ist $\pi$

V^{π} (s) = E [\sum_{t > 0} γ^{t} r_{t} | s_{0} = s, π]

$V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, \pi\right]$

eine Punktausgabe?

In der obigen Definition nehmen wir eine Erwartung an. Was ist diese Erwartung vorbei?

Kann eine Richtlinie zu unterschiedlichen Routen führen?

reinforcement-learning deterministic-policy stochastic-policy

— MiloMinderbinder
quelle

Eine verwandte Frage zu StackOverflow: stackoverflow.com/q/46260775/712995

— Maxim

Hier gibt es mehrere Fragen: 1. Ist eine Politik immer deterministisch? 2. Wenn die Richtlinie deterministisch ist, sollte der Wert dann nicht auch deterministisch sein? 3. Wie hoch ist die Erwartung bei der Wertfunktionsschätzung? Ihre letzte Frage ist nicht ganz klar: "Kann eine Richtlinie zu Routen mit unterschiedlichen aktuellen Werten führen?" aber ich denke du meinst: 4. Kann eine Politik zu unterschiedlichen Routen führen?

Eine Politik ist eine Funktion, die entweder deterministisch oder stochastisch sein kann. Es bestimmt, welche Maßnahmen in einem bestimmten Zustand zu ergreifen sind. Die Verteilung wird für eine stochastische Richtlinie verwendet, und eine Zuordnungsfunktion wird für eine deterministische Richtlinie verwendet, wobei die Menge möglicher Zustände und die Menge möglicher Aktionen ist . $\pi(a\mid s)$ $\pi:S \rightarrow A$ $S$ $A$
Die Wertfunktion ist nicht deterministisch. Der Wert (eines Staates) ist die erwartete Belohnung, wenn Sie in diesem Staat beginnen und weiterhin einer Richtlinie folgen. Selbst wenn die Richtlinie deterministisch ist, sind die Belohnungsfunktion und die Umgebung möglicherweise nicht.
Die Erwartung in dieser Formel gilt für alle möglichen Routen ab Zustand . Normalerweise werden die Routen oder Pfade in mehrere Schritte zerlegt, mit denen Wertschätzer trainiert werden. Diese Schritte können durch das Tupel (Zustand, Aktion, Belohnung, nächster Zustand) dargestellt werden. $s$ $(s,a,r,s')$
Dies hängt mit Antwort 2 zusammen. Die Richtlinie kann zu unterschiedlichen Pfaden führen (sogar zu einer deterministischen Richtlinie), da die Umgebung normalerweise nicht deterministisch ist.

— ANZEIGE
quelle

Können Sie mir ein Beispiel dafür geben, dass die Umwelt nicht deterministisch ist? Aus

a

$a$

s

$s$

s^{‘}

$s^`$

— meiner Sicht

Ein klassisches Beispiel ist ein Roboter, der sich um einen Schritt nach links bewegt (Aktion), die Oberfläche jedoch rutschig ist (auf Eis läuft), sodass er sich tatsächlich um zwei Schritte nach links bewegt. Tatsächlich sind solche Umgebungen die Norm und werden ausführlich untersucht. Mein Beispiel ist eine ebenso bekannte "Spielzeug" -Umgebung: gym.openai.com/envs/FrozenLake-v0

— AD

so führen Zustand und Handlung darauf zu einem Problem dist über . Ich habe das richtig verstanden?

s

$s$

a

$a$

s^{‘}

$s^`$

— MiloMinderbinder

Ja, genau wie stochastisch ist, ist auch stochastisch.

p (a ∣ s)

$p(a\mid s)$

p (s^{'} ∣ s, a)

$p(s' \mid s, a)$

— AD

nur noch zwei Dinge: 1. ist nur in der stochastischen Politik stochastisch, oder? 2. Können Sie bestätigen, dass die andere Antwort falsch ist, was die Erwartung betrifft, damit ich Ihre Antwort akzeptieren kann?

p (a | s)

$p(a|s)$

— MiloMinderbinder

Die Politik kann stochastisch oder deterministisch sein. Die Erwartung ist angesichts der Bedingungen über Trainingsbeispiele. Die Wertfunktion ist eine Schätzung der Rendite, weshalb es sich um eine Erwartung handelt.

— Neil G.
quelle