Rahmen
Wir betrachten in der Einstellung von:
- Diskrete Aktionen
- Diskrete Zustände
- Begrenzte Belohnungen
- Stationäre Politik
- Unendlicher Horizont
Die optimale Richtlinie ist definiert als:
und die optimale Wertfunktion ist:
V ∗ = max π V π ( s ) , ∀ s ∈ S
Es kann eine Menge geben von Politiken, die das Maximum erreichen. Es gibt jedoch nur eine optimale Wertefunktion:
V ∗ = V π ∗
π∗∈argmaxπVπ(s),∀s∈S(1)
V∗=maxπVπ(s),∀s∈S(2)
V∗=Vπ∗(3)
Die Frage
Wie kann man beweisen, dass es mindestens ein das (1) gleichzeitig für alle s ∈ S erfüllt ?π∗s∈S
Umriss des Beweises
Konstruieren Sie die optimale Gleichung , die als temporäre Ersatzdefinition der Optimalwertfunktion verwendet werden soll, und beweisen Sie in Schritt 2, dass sie der Definition gemäß Gleichung (2) entspricht.
V∗(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V∗(s′)](4)
Leiten Sie die Äquivalenz der Definition der Optimalwertfunktion über Gleichung (4) und über Gleichung (2) her.
(Beachten Sie in der Tat, dass wir nur die Notwendigkeitsrichtung im Beweis benötigen, da die Hinlänglichkeit offensichtlich ist, da wir Gleichung (4) aus Gleichung (2) konstruiert haben.)
Beweisen Sie, dass es zu Gleichung (4) eine eindeutige Lösung gibt.
Durch Schritt 2 wissen wir, dass die in Schritt 3 erhaltene Lösung auch eine Lösung nach Gleichung (2) ist, so dass es sich um eine optimale Wertefunktion handelt.
Aus einer Optimalwertfunktion können wir eine optimale Richtlinie wiederherstellen, indem wir die Maximiereraktion in Gleichung (4) für jeden Zustand auswählen.
Details der Schritte
1
Da , haben wir V π * ( s ) ≤ max a ∈ A Q π * ( s , a ) . Und wenn es irgendwelche ~ s , so dass V π * ≠ max a ∈V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)]Vπ∗(s)≤maxa∈AQπ∗(s,a)s~, wir können eine bessere Strategie wählen, indem wirQ ∗ (s,a)=Q π ∗ (s,a)überamaximierenVπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a .
2
(=>)
Es folgt Schritt 1.
(<=)
wenn also erfüllt ~ V ( s ) = max a ∈ A [ R ( s , a ) + γV~ , dann ~ V ( s ) = V * ( s ) = max π V π ( s ) , ∀ s ∈ S .V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
Define the optimal Bellman operator as
TV(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
So our goal is to prove that if
V~=TV~, then
V~=V∗. We show this by combining two results, following
Puterman[1]:
a) If V~≥TV~, then V~≥V∗.
b) If V~≤TV~, then V~≤V∗.
Proof:
a)
For any π=(d1,d2,...),
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
Here
d is the decision rule(action profile at specific time),
Rd is the vector representation of immediate reward induced from
d and
Pd is transition matrix induced from
d.
By induction, for any n,
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
where
Pjπ represents the
j-step transition matrix under
π.
Since
Vπ=Rd1+∑i=1∞γiPiπRdi+1
we have
V~−Vπ≥γnPnπV~−∑i=n∞γiPiπRdi+1→0 as n→∞
So we have
V~≥Vπ. And since this holds for any
π, we conclude that
V~≥maxπVπ=V∗
b)
Follows from step 1.
3
The optimal Bellman operator is a contraction in L∞ norm, cf. [2].
Proof:
For any s,
|TV1(s)−TV2(s)|=∣∣∣∣maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V1(s′)]−maxa′∈A[R(s,a′)+γ∑s′∈ST(s,a′,s′)V(s′)]∣∣∣∣≤(∗)∣∣∣∣maxa∈A[γ∑s′∈ST(s,a,s′)(V1(s′)−V2(s′))]∣∣∣∣≤γ∥V1−V2∥∞
where in (*) we used the fact that
maxaf(a)−maxa′g(a′)≤maxa[f(a)−g(a)]
Thus by Banach fixed point theorum it follows that T has a unique fixed point.
References
[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).
[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf