Die Notation, die ich verwenden werde, stammt aus zwei verschiedenen Vorträgen von David Silver und wird auch durch diese Folien informiert .
Die erwartete Bellman-Gleichung lautet
vπ(s)=∑a∈Aπ(a|s)(Ras+γ∑s′∈SPass′vπ(s′))(1)
Wenn wir
und
dann können wir umschreiben alsPπss′=∑a∈Aπ(a|s)Pass′(2)
Rπs=∑a∈Aπ(a|s)Ras(3)
(1)
vπ(s)=Rπs+γ∑s′∈SPπss′vπ(s′)(4)
Dies kann in Matrixform geschrieben werden
⎡⎣⎢⎢vπ(1)⋮vπ(n)⎤⎦⎥⎥=⎡⎣⎢⎢Rπ1⋮Rπn⎤⎦⎥⎥+γ⎡⎣⎢⎢Pπ11⋮Pπn1…⋱…Pπ1n⋮Pπnn⎤⎦⎥⎥⎡⎣⎢⎢vπ(1)⋮vπ(n)⎤⎦⎥⎥(5)
Oder kompakter:
vπ=Rπ+γPπvπ(6)
Beachten Sie, dass beide Seiten sind - dimensionale Vektoren. Hier istist die Größe des Zustandsraums. Wir können dann einen Operator als definieren(6)nn=|S|Tπ:Rn→Rn
Tπ(v)=Rπ+γPπv(7)
für jedes . Dies ist der erwartete Bellman-Betreiber.v∈Rn
Ebenso können Sie die Bellman-Optimalitätsgleichung neu schreiben
v∗(s)=maxa∈A(Ras+γ∑s′∈SPass′v∗(s′))(8)
als Bellman-Optimalitätsoperator
T∗(v)=maxa∈A(Ra+γPav)(9)
Die Bellman-Operatoren sind "Operatoren", da sie Abbildungen von einem Punkt zum anderen innerhalb des Vektorraums der Zustandswerte .Rn
Das Umschreiben der Bellman-Gleichungen als Operatoren ist nützlich, um zu beweisen, dass bestimmte dynamische Programmieralgorithmen (z. B. Richtlinieniteration, Wertiteration) zu einem eindeutigen Fixpunkt konvergieren. Diese Nützlichkeit ergibt sich aus einer Reihe bestehender Arbeiten in der Operatortheorie, die es uns ermöglichen, spezielle Eigenschaften der Bellman-Operatoren zu nutzen.
Insbesondere die Tatsache, dass die Bellman-Operatoren Kontraktionen sind, liefert die nützlichen Ergebnisse, dass für jede Richtlinie und jeden Anfangsvektor ,πv
limk→∞(Tπ)kv=vπ(10)
limk→∞(T∗)kv=v∗(11)
Dabei ist der Wert der Richtlinie und der Wert einer optimalen Richtlinie . Der Beweis beruht auf dem Satz der Kontraktionsabbildung .vππv∗π∗