Warum gibt es immer mindestens eine Richtlinie, die besser oder gleich allen anderen Richtlinien ist?

13

Das Lösen einer Bestärkungslernaufgabe bedeutet ungefähr, eine Politik zu finden, die auf lange Sicht eine Menge Belohnung bringt. Für endliche MDPs können wir eine optimale Richtlinie auf folgende Weise präzise definieren. Wertefunktionen definieren eine teilweise Anordnung über Richtlinien. Eine Richtlinie $\pi$ ist als besser oder gleich einer Richtlinie $\pi'$ wenn ihre erwartete Rendite für alle Zustände größer oder gleich der von $\pi'$ ist. Mit anderen Worten, $\pi \geq \pi'$ , wenn und nur wenn $v_\pi(s) \geq v_{\pi'}(s)$ für alle $s \in \mathcal{S}$ .Es gibt immer mindestens eine Richtlinie, die besser oder gleich allen anderen Richtlinien ist.Dies ist eine optimale Politik.

markov-process reinforcement-learning

— sh1ng
quelle

Ein sehr detaillierter Beweis (der Banachs Fixpunktsatz verwendet) ist in Kapitel 6.2 von "Markov Decision Processes" von Puterman zu finden.

— Toghs

3

Gleich nach dem zitierten Teil erfahren Sie im selben Absatz, worum es sich bei dieser Richtlinie handelt: Es ist die Richtlinie, die in jedem Bundesstaat die besten Maßnahmen ergreift. In einem MDP wirkt sich die Aktion, die wir in einem Bundesstaat ausführen, nicht auf die Belohnungen für Aktionen aus, die in anderen Bundesstaaten ausgeführt werden, sodass wir die Richtlinie einfach von Bundesstaat zu Bundesstaat maximieren können.

— Don Reba
quelle

Ist diese Antwort nicht völlig falsch? Wie können Sie sagen, dass die Optimierung der Richtlinienstatus zu optimalen Richtlinien führt? Wenn ich über den Zustand

optimiere

S_{t}

$S_t$ und es dauert, bis ich

S_{t + 1}

$S_{t+1}$ und dann bei

optimiere,

S_{t + 1}

$S_{t+1}$ führt dies zu einer optimalen Wertfunktion

V_{t + 1}

$V_{t+1}$ aber es gibt eine andere Politik, bei der

S_{t}

$S_t$ suboptimal zu

S_{l}

$S_l$ und dem Optimum führt Wertfunktion von

S_{l}

$S_l$ ist höher als

V_{t + 1}

$V_{t+1}$ . Wie können Sie dies durch eine solche flüchtige Analyse ausschließen?

— MiloMinderbinder

@MiloMinderbinder Wenn die optimale Richtlinie bei

S_{t}

$S_t$ besteht,

zu wählen

S_{t + 1}

$S_{t+1}$ , ist der Wert von

S_{t + 1}

$S_{t+1}$ höher als der Wert von

S_{l}

$S_l$ .

— Don Reba

Mein Fehler. Tippfehler korrigiert: 'Ist diese Antwort nicht völlig falsch? Wie können Sie sagen, dass die Optimierung von Richtlinienstatus zu optimalen Richtlinien führt? Wenn ich über den Zustand

optimiere

S_{t}

$S_t$ und es mich zu

bringt

S_{t + 1}

$S_{t+1}$ und dann bei

optimiere,

S_{t + 1}

$S_{t+1}$ führt dies zu einer optimalen Wertefunktion

V_{t + 2}

$V_{t+2}$ von

S_{t + 2}

$S_{t+2}$ aber es gibt eine andere Strategie, in der

S_{t}

$S_t$ zwar führt suboptimal zu

S_{l + 1}

$S_{l+1}$ und damit die Wertefunktion von

S_{t + 1}

$S_{t+1}$ ist höher als

V_{l + 1}

$V_{l+1}$ aber die Wertefunktion von

S_{t + 2}

$S_{t+2}$ ist unter dieser Richtlinie höher als unter der Richtlinie, die durch Optimieren von Zustand zu Zustand ermittelt wird. Wie ist das von Ihnen ausgeschlossen? '

— MiloMinderbinder

Ich denke, die Definition von

V

$V$ wird dies von vornherein verhindern, da sie auch zukünftige Erträge berücksichtigen sollte.

— Flying_Banana

Die Frage wäre dann: Warum gibt es

? Man kann den Banach-Fixpunktsatz nicht umgehen :-)

q_{*}

$q_*$

— Fabian Werner

10

Die Existenz einer optimalen Politik ist nicht offensichtlich. Um zu sehen, warum, beachten Sie, dass die Wertfunktion nur eine teilweise Sortierung über den Bereich von Richtlinien bietet. Das heisst:

π^{'} \geq π ⟺ v_{π^{'}} (s) \geq v_{π} (s), \forall s \in S

$\pi' \geq \pi \iff v_{\pi'}(s) \geq v_{\pi}(s), \forall s \in S$

Da dies nur eine partielle Ordnung ist, könnte es einen Fall geben , wo zwei Richtlinien, und , nicht vergleichbar sind. Mit anderen Worten, es gibt Teilmengen des Zustandsraums und so dass: $\pi_1$ $\pi_2$ $S_1$ $S_2$

v_{π^{'}} (s) \geq v_{π} (s), \forall s \in S_{1}

$v_{\pi'}(s) \geq v_{\pi}(s), \forall s \in S_1$

v_{π} (s) \geq v_{π^{'}} (s), \forall s \in S_{2}

$v_{\pi}(s) \geq v_{\pi'}(s),\forall s \in S_2$

In diesem Fall können wir nicht sagen, dass eine Richtlinie besser ist als die andere. Wenn es sich jedoch um endliche MDPs mit Funktionen mit beschränktem Wert handelt, tritt ein solches Szenario niemals auf. Es gibt genau eine optimale Wertfunktion, obwohl es mehrere optimale Richtlinien geben kann.

Um dies zu beweisen, müssen Sie den Banach-Fixpunktsatz verstehen. Für eine detaillierte Analyse verweisen wir auf .

— Karthik Thiagarajan
quelle

7

$\newcommand{\mc}{\mathcal} \newcommand{\mb}{\mathbb}$

Rahmen

Wir betrachten in der Einstellung von:

Diskrete Aktionen
Diskrete Zustände
Begrenzte Belohnungen
Stationäre Politik
Unendlicher Horizont

Die optimale Richtlinie ist definiert als: und die optimale ist: Es kann eine Menge geben von Politiken, die das Maximum erreichen. Es gibt jedoch nur eine optimale Wertefunktion:

\begin{matrix} (1) & π^{*} \in \arg max_{π} V^{π} (s), \forall s \in S \end{matrix}

$\pi^\ast \in \arg \max_\pi V^\pi(s), \forall s \in \mc{S} \tag{1}$

\begin{matrix} (2) & V^{*} = max_{π} V^{π} (s), \forall s \in S \end{matrix}

$V^\ast = \max_\pi V^\pi (s), \forall s \in \mc S \tag{2}$

\begin{matrix} (3) & V^{*} = V^{π^{*}} \end{matrix}

$V^\ast = V^{\pi^\ast} \tag{3}$

Die Frage

Wie kann man beweisen, dass es mindestens ein das (1) gleichzeitig für alle erfüllt ? $\pi^\ast$ $s \in \mc{S}$

Umriss des Beweises

Konstruieren Sie die optimale Gleichung , die als temporäre Ersatzdefinition der Optimalwertfunktion verwendet werden soll, und beweisen Sie in Schritt 2, dass sie der Definition gemäß Gleichung (2) entspricht.
$\begin{matrix} (4) & V^{*} (s) = max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V^{*} (s^{'})] \end{matrix}$ $V^\ast(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V^\ast(s^\prime)] \tag{4}$
Leiten Sie die Äquivalenz der Definition der Optimalwertfunktion über Gleichung (4) und über Gleichung (2) her.

(Beachten Sie in der Tat, dass wir nur die Notwendigkeitsrichtung im Beweis benötigen, da die Hinlänglichkeit offensichtlich ist, da wir Gleichung (4) aus Gleichung (2) konstruiert haben.)
Beweisen Sie, dass es zu Gleichung (4) eine eindeutige Lösung gibt.
Durch Schritt 2 wissen wir, dass die in Schritt 3 erhaltene Lösung auch eine Lösung nach Gleichung (2) ist, so dass es sich um eine optimale Wertefunktion handelt.
Aus einer Optimalwertfunktion können wir eine optimale Richtlinie wiederherstellen, indem wir die Maximiereraktion in Gleichung (4) für jeden Zustand auswählen.

Details der Schritte

1

Da , haben wir . Und wenn es irgendwelche , so dass $V^\ast(s) = V^{\pi^\ast}(s) = \mb E_a [Q^{\pi^\ast}(s, a)]$ $V^{\pi^\ast}(s) \le \max_{a \in \mc A} Q^{\pi^\ast} (s, a)$ $\tilde{s}$ , wir können eine bessere Strategie wählen, indem wirübermaximieren $V^{\pi^\ast} \neq \max_{a \in \mc A} Q^{\pi^\ast} (s, a)$ $Q^{\ast} (s, a) = Q^{\pi^\ast} (s, a)$ $a$ .

2

(=>)

Es folgt Schritt 1.

(<=)

wenn also erfüllt $\tilde V$ , dann . $\tilde V(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) \tilde V(s^\prime)]$ $\tilde V(s) = V^\ast(s) = \max_\pi V^\pi(s), \forall s \in \mc S$

Define the optimal Bellman operator as

\begin{matrix} (5) & T V (s) = max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V (s^{'})] \end{matrix}

$\mc T V(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V(s^\prime)] \tag{5}$ So our goal is to prove that if

\tilde{V} = T \tilde{V}

$\tilde V = \mc T \tilde V$ , then

\tilde{V} = V^{*}

$\tilde V = V^\ast$ . We show this by combining two results, following Puterman[1]:

a) If $\tilde V \ge \mc T \tilde V$ , then $\tilde V \ge V^\ast$ .

b) If $\tilde V \le \mc T \tilde V$ , then $\tilde V \le V^\ast$ .

Proof:

a)

For any $\pi = (d_1, d_2, ...)$ ,

\begin{aligned} \tilde{V} & \geq T \tilde{V} = max_{d} [R_{d} + γ P_{d} \tilde{V}] \\ \geq R_{d_{1}} + γ P_{d_{1}} \tilde{V} \end{aligned}

$\begin{align} \tilde V &\ge \mc T \tilde V = \max_{d} [ R_d + \gamma \, P_d \tilde V] \\ &\ge R_{d_1} + \gamma \, P_{d_1} \tilde V \\ \end{align}$ Here

d

$d$ is the decision rule(action profile at specific time),

R_{d}

$R_d$ is the vector representation of immediate reward induced from

d

$d$ and

P_{d}

$P_d$ is transition matrix induced from

d

$d$ .

By induction, for any $n$ ,

\tilde{V} \geq R_{d_{1}} + \sum_{i = 1}^{n - 1} γ^{i} P_{π}^{i} R_{d_{i + 1}} + γ^{n} P_{π}^{n} \tilde{V}

$\tilde V \ge R_{d_1} + \sum_{i=1}^{n-1} \gamma^i P_\pi^i R_{d_{i+1}} + \gamma^n P_\pi^n \tilde V$ where

P_{π}^{j}

$P_\pi^j$ represents the

j

$j$ -step transition matrix under

π

$\pi$ .

Since

V^{π} = R_{d_{1}} + \sum_{i = 1}^{\infty} γ^{i} P_{π}^{i} R_{d_{i + 1}}

$V^\pi = R_{d_1} + \sum_{i=1}^{\infty}\gamma^i P_\pi^i R_{d_{i+1}}$ we have

\tilde{V} - V^{π} \geq \underset{\to 0 as n \to \infty}{\underset{⏟}{γ^{n} P_{π}^{n} \tilde{V} - \sum_{i = n}^{\infty} γ^{i} P_{π}^{i} R_{d_{i + 1}}}}

$\tilde V - V^\pi \ge \underbrace{\gamma^n P_\pi^n \tilde V -\sum_{i=n}^{\infty}\gamma^i P_\pi^i R_{d_{i+1}}}_{\rightarrow 0 \ \text{as}\ n\rightarrow \infty}$ So we have

\tilde{V} \geq V^{π}

$\tilde V \ge V^\pi$ . And since this holds for any

π

$\pi$ , we conclude that

\tilde{V} \geq max_{π} V^{π} = V^{*}

$\tilde V \ge \max_\pi V^\pi = V^\ast$ b)

Follows from step 1.

3

The optimal Bellman operator is a contraction in $L_\infty$ norm, cf. [2].

Proof: For any $s$ ,

\begin{aligned} | T V_{1} (s) - T V_{2} (s) | & = | max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V_{1} (s^{'})] - max_{a^{'} \in A} [R (s, a^{'}) + γ \sum_{s^{'} \in S} T (s, a^{'}, s^{'}) V (s^{'})] | \\ \overset{(*)}{\leq} | max_{a \in A} [γ \sum_{s^{'} \in S} T (s, a, s^{'}) (V_{1} (s^{'}) - V_{2} (s^{'}))] | \\ \leq γ ‖ V_{1} - V_{2} ‖_{\infty} \end{aligned}

$\begin{align} \left\vert \mc T V_1(s) - \mc TV_2(s) \right\vert &= \left\vert \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V_1(s^\prime)] -\max_{a^\prime \in \mc A} [ R(s, a^\prime) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a^\prime, s^\prime) V(s^\prime)]\right\vert \\ &\overset{(*)}{\le} \left\vert \max_{a \in \mc A} [\gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) (V_1(s^\prime) - V_2(s^\prime))] \right\vert \\ &\le \gamma \Vert V_1 - V_2 \Vert_\infty \end{align}$ where in (*) we used the fact that

max_{a} f (a) - max_{a^{'}} g (a^{'}) \leq max_{a} [f (a) - g (a)]

$\max_a f(a) - \max_{a^\prime} g(a^\prime) \le \max_a [f(a) - g(a)]$

Thus by Banach fixed point theorum it follows that $\mc T$ has a unique fixed point.

References

[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).

[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

— LoveIris
quelle

-1

Die Richtlinie $a=\pi(s)$ gibt die beste Aktion $a$ im Zustand ausführen $s$ nach politik $\pi$ , dh die Wertfunktion $v_\pi(s)=\max_{a \in A} q_\pi (s,a)$ ist am höchsten zum Handeln $a$ im Zustand $s$ .

Es gibt immer mindestens eine Richtlinie, die besser oder gleich allen anderen Richtlinien ist.

Es gibt also immer eine Politik $\pi_*$ das gibt gleiche oder höhere erwartete Belohnungen als Politik $\pi$ . Beachten Sie, dass dies dies impliziert $\pi$ könnte eine / die optimale Politik sein ( $\pi_*$ ) selbst.

— agold
quelle

3

How does this answer the question? You're basically repeating statements written in the quote.

— nbro