Ableiten der Bellman-Gleichung beim Reinforcement Learning


Antworten:


7

Dies ist die Antwort für alle, die sich über die saubere, strukturierte Mathematik dahinter wundern (dh wenn Sie zu der Gruppe von Menschen gehören, die wissen, was eine Zufallsvariable ist und die Sie zeigen oder annehmen müssen, dass eine Zufallsvariable eine Dichte hat, dann ist dies die richtige die antwort für dich ;-)):

Zunächst muss der Markov-Entscheidungsprozess nur eine endliche Anzahl von Belohnungen haben, dh es muss eine endliche Menge von Dichten existieren, die jeweils zu Variablen gehören, dh für alle und eine Abbildung so dass (dh in den Automaten hinter dem MDP kann es unendlich viele Zustände geben, aber es gibt nur endlich viele Belohnungsverteilungen, die an die möglicherweise unendlichen Übergänge zwischen den Zuständen gebunden sind)L1EL1Rxe(x)dx<eEF:A×SE

p(rt|at,st)=F(at,st)(rt)
L1

Satz 1 : Sei (dh eine integrierbare reelle Zufallsvariable) und sei eine andere Zufallsvariable, so dass eine gemeinsame Dichte haben, dann XL1(Ω)YX,Y

E[X|Y=y]=Rxp(x|y)dx

Beweis : Im Wesentlichen bewiesen hier von Stefan Hansen.

Satz 2 : Sei und sei eine weitere Zufallsvariable, so dass eine gemeinsame Dichte haben, dann ist wobei der Bereich von .XL1(Ω)Y,ZX,Y,Z

E[X|Y=y]=Zp(z|y)E[X|Y=y,Z=z]dz
ZZ

Beweis :

E[X|Y=y]=Rxp(x|y)dx    (by Thm. 1)=Rxp(x,y)p(y)dx=RxZp(x,y,z)dzp(y)dx=ZRxp(x,y,z)p(y)dxdz=ZRxp(x|y,z)p(z|y)dxdz=Zp(z|y)Rxp(x|y,z)dxdz=Zp(z|y)E[X|Y=y,Z=z]dz    (by Thm. 1)

Setzen und setzen dann kann man zeigen (unter Verwendung der Tatsache, dass der MDP nur endlich viele Belohnungen hat), dass konvergiert und dass seit der Funktionist immer noch in (dh integrierbare) ein (durch die übliche Kombination der Sätze der monotonen Konvergenz und anschließend dominierte Konvergenz auf den Definitionsgleichungen für [die Faktorisierungen] die bedingten Erwartung) zeigt auch , dass Nun zeigt man das Gt=k=0γkRt+kGt(K)=k=0KγkRt+kL1Gt(K)k=0γk|Rt+k|L1(Ω)

limKE[Gt(K)|St=st]=E[Gt|St=st]
E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1(K1)|St+1=st+1]dst+1
Verwendung von , Thm. 2 über dann Thm. 1 auf und dann unter Verwendung eines direkten Marginalisierungskrieges zeigt man, dass für alle . Nun müssen wir die Grenze auf beide Seiten der Gleichung anwenden . Um die Grenze in das Integral über den Zustandsraum , müssen wir einige zusätzliche Annahmen treffen:Gt(K)=Rt+γGt+1(K1)E[Gt+1(K1)|St+1=s,St=st]p(rq|st+1,st)=p(rq|st+1)qt+1KS

Entweder ist der Zustandsraum endlich (dann ist und die Summe ist endlich) oder alle Belohnungen sind positiv (dann verwenden wir monotone Konvergenz) oder alle Belohnungen sind negativ (dann setzen wir ein Minuszeichen vor das Gleichung und verwenden wieder monotone Konvergenz) oder alle Belohnungen sind begrenzt (dann verwenden wir dominierte Konvergenz). Dann (durch Anwenden von auf beide Seiten der partiellen / endlichen Bellman-Gleichung oben) erhalten wirS=SlimK

E[Gt|St=st]=E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1|St+1=st+1]dst+1

und dann ist der Rest die übliche Dichtemanipulation.

BEMERKUNG: Selbst bei sehr einfachen Aufgaben kann der Zustandsraum unendlich sein! Ein Beispiel wäre die Aufgabe "Balancieren einer Stange". Der Zustand ist im Wesentlichen der Winkel des Pols (ein Wert in , eine unzählige Menge!)[0,2π)

BEMERKUNG: Die Leute könnten Teig kommentieren, dieser Beweis kann viel mehr verkürzt werden, wenn Sie nur die Dichte von direkt verwenden und zeigen, dass '... ABER ... meine Fragen wären:Gtp(gt+1|st+1,st)=p(gt+1|st+1)

  1. Woher wissen Sie überhaupt, dass eine Dichte hat?Gt+1
  2. Woher wissen Sie überhaupt, dass eine gemeinsame Dichte mit ?Gt+1St+1,St
  3. Wie kann man auf ? Dies ist nicht nur die Markov-Eigenschaft: Die Markov-Eigenschaft sagt Ihnen nur etwas über die Randverteilungen aus, aber diese bestimmen nicht unbedingt die gesamte Verteilung, siehe zB multivariate Gaußsche!p(gt+1|st+1,st)=p(gt+1|st+1)

10

Die Gesamtsumme der reduzierten Belohnungen nach dem Zeitpunkt sei: G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . .t
Gt=Rt+1+γRt+2+γ2Rt+3+...

Der Nutzwert des Starts in Zustand zum Zeitpunkt entspricht der erwarteten Summe der abgezinsten Belohnungen des Ausführens der Richtlinie ab Zustand . Definitionsgemäß ist Nach dem Gesetz der Linearität Nach dem Gesetz vont R π s U π ( S t = s ) = E π [ G t | S t = s ]st
Rπs
Uπ(St=s)=Eπ[Gt|St=s]
G t = E π [ ( R t + 1 + γ ( R t + 2 + γ R t + 3 + . . .=Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]Gt
= E π [ ( R t + 1 + γ ( G t + 1 ) ) | S t = s ] = E π [ R t + 1 | S t = s ] + & ggr; E & pgr; [ G t + 1 | S t = s ]=Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
=Eπ[(Rt+1+γ(Gt+1))|St=s]
=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
= E π [ R t + 1 | S t = s ] + & ggr; E & pgr; [ U=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s)|St=s]Gesamterwartung Per Definition von Nach dem Gesetz der Linearität
U π = E π [ R t + 1 + γ U π ( S t + 1 = s ) | S t = s ]=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s)|St=s]Uπ
=Eπ[Rt+1+γUπ(St+1=s)|St=s]

Angenommen, der Prozess erfüllt die Markov-Eigenschaft:
Wahrscheinlichkeit , dass er in Zustand endet nachdem er von Zustand aus gestartet und die Aktion hat. und Belohnung des Endes in Zustand nachdem von Zustand und die Aktion , s ' s ein P r ( s ' | s , a ) = P r ( S t + 1 = s ' , S t = s , A t = a ) R s ' s ein R ( s , a , s ' ) = [ R t + 1 | S tPrssa
Pr(s|s,a)=Pr(St+1=s,St=s,At=a)
Rssa
R(s,a,s)=[Rt+1|St=s,At=a,St+1=s]

Daher können wir die obige wie :
=aπ(a|s)sPr(s|s,a)[R(s,a,s)+γUπ(St+1=s)]

Woher; : Handlungswahrscheinlichkeit im Zustand für eine stochastische Politik. Für deterministische Richtlinien ista s a π ( a | s ) = 1π(a|s)asaπ(a|s)=1


Nur ein paar Anmerkungen: Die Summe über ist auch in einer stochastischen Politik gleich 1, aber in einer deterministischen Politik gibt es nur eine Aktion, die das volle Gewicht erhält (dh und den Rest Erhalte ein Gewicht von 0, so dass der Term aus der Gleichung entfernt wird.Auch in der Zeile, in der du das Gesetz der totalen Erwartung benutzt hast, ist die Reihenfolge der Bedingungen umgekehrtπ ( a | s ) = 1ππ(a|s)=1
Gilad Peleg

1
Ich bin mir ziemlich sicher, dass diese Antwort falsch ist: Folgen wir den Gleichungen nur bis zur Linie, die das Gesetz der totalen Erwartung beinhaltet. Dann die linke Seite hängt nicht von , während die rechte Seite tut ... Dh , wenn die Gleichungen richtig sind dann für die sind sie korrekt? Sie müssen bereits in diesem Stadium eine Art Integral über . Der Grund ist wahrscheinlich Ihr Missverständnis des Unterschieds von (eine Zufallsvariable) zu seiner Faktorisierung (eine deterministische Funktion!) ...s ' s ' E [ X | Y ] E [ X | Y = y ]sssE[X|Y]E[X|Y=y]
Fabian Werner

@ FabianWerner Ich bin damit einverstanden, dass dies nicht korrekt ist. Die Antwort von Jie Shi ist die richtige Antwort.
Teucer

@teucer Diese Antwort kann korrigiert werden, weil nur eine gewisse "Symmetrisierung" fehlt, dh aber die Frage ist dieselbe wie bei Jie Shis Antwort: Warum ist ? Dies ist nicht nur die Markov-Eigenschaft, da ein wirklich kompliziertes Wohnmobil ist: Konvergiert es überhaupt? Wenn ja, wo? Was ist die gemeinsame Dichte ? Wir kennen diesen Ausdruck nur für endliche Summen (komplizierte Faltung), aber für den unendlichen Fall? E [ G t + 1 | S t + 1 = s t + 1 , S t = s t ]E[A|C=c]=range(B)p(b|c)E[A|B=b,C=c]dPB(b)G t + 1 p ( g t + 1 , s t + 1 , s t )E[Gt+1|St+1=st+1,St=st]=E[Gt+1|St+1=st+1]Gt+1p(gt+1,st+1,st)
Fabian Werner

@ FabianWerner ist sich nicht sicher, ob ich alle Fragen beantworten kann. Nachfolgend einige Hinweise. Für die Konvergenz von ist es vernünftig anzunehmen, dass die Serie konvergiert (der Diskontierungsfaktor ist und wo sie konvergiert, spielt keine Rolle) , da es sich um die Summe der reduzierten Belohnungen handelt . Die Dichte interessiert mich nicht (man kann immer eine gemeinsame Dichte definieren, solange wir zufällige Variablen haben), es ist nur wichtig, ob sie gut definiert ist und in diesem Fall. < 1Gt+1<1
10.

8

Hier ist mein Beweis. Es basiert auf der Manipulation von bedingten Verteilungen, was das Verfolgen erleichtert. Hoffe dieser hilft dir.

vπ(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]=srgt+1ap(s,r,gt+1,a|s)(r+γgt+1)=ap(a|s)srgt+1p(s,r,gt+1|a,s)(r+γgt+1)=ap(a|s)srgt+1p(s,r|a,s)p(gt+1|s,r,a,s)(r+γgt+1)Note that p(gt+1|s,r,a,s)=p(gt+1|s) by assumption of MDP=ap(a|s)srp(s,r|a,s)gt+1p(gt+1|s)(r+γgt+1)=ap(a|s)srp(s,r|a,s)(r+γgt+1p(gt+1|s)gt+1)=ap(a|s)srp(s,r|a,s)(r+γvπ(s))
Dies ist die berühmte Bellman-Gleichung.


Haben Sie etwas dagegen, diesen Kommentar "Beachten Sie, dass ..." ein wenig mehr zu erklären? Warum haben diese Zufallsvariablen und die Zustands- und Aktionsvariablen überhaupt eine gemeinsame Dichte? Wenn ja, warum kennen Sie diese Eigenschaft, die Sie verwenden? Ich kann sehen, dass es für eine endliche Summe gilt, aber wenn die Zufallsvariable eine Grenze ist ... ??? Gt+1
Fabian Werner

Zu Fabian: Erinnern wir uns zunächst an . . Es ist zu beachten, dass nur direkt von und abhängt, da alle Übergangsinformationen eines MDP erfasst (genauer gesagt, ist unabhängig von allen Zuständen, Aktionen und Belohnungen vor dem Zeitpunkt wenn und . In ähnlicher Weise hängt nur von und . Infolgedessen ist unabhängig von , G t + 1 = R t + 2 + R t + 3 + R t + 2 S t + 1 A t + 1 p ( s ' , r | s , a ) R t + 2 t + 1 S t + 1 A t + 1 R t +Gt+1Gt+1=Rt+2+Rt+3+Rt+2St+1At+1p(s,r|s,a)Rt+2t+1St+1At+1 S t + 2 A t + 2 G t + 1 S t A t R t S t + 1Rt+3St+2At+2Gt+1StAtund gegeben , was diese Zeile erklärt. RtSt+1
Jie Shi

Tut mir leid, das "motiviert" es nur, es erklärt eigentlich nichts. Zum Beispiel: Was ist die Dichte von ? Warum bist du sicher, dass ? Warum haben diese Zufallsvariablen überhaupt eine gemeinsame Dichte? Sie wissen, dass sich eine Summe in eine Faltung in Dichten verwandelt. Also, was ... sollte eine unendliche Anzahl von Integralen in der Dichte haben? Es gibt absolut keinen Kandidaten für die Dichte! p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 ) G t + 1Gt+1p(gt+1|st+1,st)=p(gt+1|st+1)Gt+1
Fabian Werner

Zu Fabian: Ich verstehe deine Frage nicht. 1. Sie wollen die genaue Form der Randverteilung ? Ich weiß es nicht und wir brauchen es in diesem Beweis nicht. 2. Warum ist ? Denn wie ich bereits erwähnt habe, sind und unabhängig voneinander, wenn . 3. Was meinst du mit "gemeinsame Dichte"? Du meinst gemeinsame Verteilung? Sie möchten wissen, warum diese Zufallsvariablen eine gemeinsame Verteilung haben? Alle Zufallsvariablen in diesem Universum können eine gemeinsame Verteilung haben. Wenn dies Ihre Frage ist, empfehle ich Ihnen, ein Buch zur Wahrscheinlichkeitstheorie zu finden und es zu lesen. p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 ) g t + 1 s t s t + 1p(gt+1)p(gt+1|st+1,st)=p(gt+1|st+1)gt+1stst+1
Jie Shi

Verschieben wir diese Diskussion in den Chat: chat.stackexchange.com/rooms/88952/bellman-equation
Fabian Werner

2

Was ist mit dem folgenden Ansatz?

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)Eπ[Rt+1+γGt+1St=s,At+1=a,St+1=s,Rt+1=r]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)].

Die Summen werden eingeführt, um , und von abzurufen . Immerhin können die möglichen Aktionen und möglichen nächsten Zustände sein. Mit diesen zusätzlichen Bedingungen führt die Linearität der Erwartung fast direkt zum Ergebnis.s ' r sasrs

Ich bin mir jedoch nicht sicher, wie streng meine Argumentation mathematisch ist. Ich bin offen für Verbesserungen.


Die letzte Zeile funktioniert nur aufgrund der MDP-Eigenschaft.
Teucer

2

Dies ist nur ein Kommentar / eine Ergänzung zu der akzeptierten Antwort.

Ich war verwirrt, als das Gesetz der totalen Erwartung angewendet wurde. Ich denke nicht, dass die Hauptform des Gesetzes der totalen Erwartung hier helfen kann. Eine Variante davon wird hier tatsächlich benötigt.

Wenn Zufallsvariablen sind und vorausgesetzt, dass alle Erwartungen erfüllt sind, gilt die folgende Identität:X,Y,Z

E[X|Y]=E[E[X|Y,Z]|Y]

In diesem Fall ist , und . DannX=Gt+1Y=StZ=St+1

E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s|St=s] , die von Markov - Eigenschaft eqauls zuE[E[Gt+1|St+1=s]|St=s]

Von dort konnte man den Rest des Beweises aus der Antwort folgen.


1
Willkommen zum Lebenslauf! Bitte verwenden Sie die Antworten nur zur Beantwortung der Frage. Sobald Sie über eine ausreichende Reputation (50) verfügen, können Sie Kommentare hinzufügen.
Frans Rodenburg

Vielen Dank. Ja, da ich wegen mangelnder Reputation keinen Kommentar abgeben konnte, hielt ich es für nützlich, die Erklärung zu den Antworten hinzuzufügen. Aber das werde ich mir merken.
Mehdi Golari

Ich habe zwar zugestimmt, aber dennoch fehlen dieser Antwort Details: Auch wenn diese verrückte Beziehung befriedigt, garantiert niemand, dass dies auch für die Faktorisierung der bedingten Erwartungen gilt! Dh wie im Fall mit der Antwort von Ntabgoba: Die linke Seite hängt nicht von während die rechte Seite es tut . Diese Gleichung kann nicht richtig sein! s 'E[X|Y]s
Fabian Werner

1

ππ(a | s)asEπ() bezeichnet normalerweise die Erwartung, dass der Agent der Richtlinie folgt . In diesem Fall scheint nicht deterministisch zu sein, dh es wird die Wahrscheinlichkeit zurückgegeben, dass der Agent im Zustand Aktion .ππ(a|s)as

Es sieht so aus, als ob in Kleinbuchstaben , eine Zufallsvariable, ersetzt. Die zweite Erwartung ersetzt die unendliche Summe, um die Annahme widerzuspiegeln, dass wir weiterhin für alle zukünftigen folgen . ist dann die erwartete sofortige Belohnung beim nächsten Zeitschritt; Die zweite Erwartung - die zu - ist der Erwartungswert des nächsten Zustands, gewichtet mit der Wahrscheinlichkeit, in dem Zustand aufzuwachsen, der von .R t + 1 π t s ' , r r p ( s ' , r | s , a ) v π s ' a srRt+1πts,rrp(s,r|s,a)vπsas

Somit berücksichtigt die Erwartung die politische Wahrscheinlichkeit sowie die Übergangs- und Belohnungsfunktionen, die hier zusammen als ausgedrückt werden .p(s,r|s,a)


Vielen Dank. Ja, was Sie über ist korrekt (es ist die Wahrscheinlichkeit, dass der Agent im Zustand Aktion ). a sπ(a|s)as
Amelio Vazquez-Reina

Was ich nicht verfolge, ist, welche Ausdrücke im zweiten Schritt genau zu welchen Ausdrücken erweitert werden (ich bin mit Wahrscheinlichkeitsfaktorisierung und Marginalisierung vertraut, aber nicht so sehr mit RL). Wird der Begriff erweitert? Dh was genau im vorigen Schritt ist gleich was genau im nächsten Schritt? Rt
Amelio Vazquez-Reina

1
Anscheinend ersetzt in Kleinbuchstaben , eine Zufallsvariable, und die zweite Erwartung ersetzt die unendliche Summe (wahrscheinlich, um die Annahme widerzuspiegeln, dass wir weiterhin für alle zukünftigen verfolgen ). ist dann die erwartete sofortige Belohnung beim nächsten Zeitschritt, und die zweite Erwartung - die zu - ist der erwartete Wert des nächsten Zustands, gewichtet mit der Wahrscheinlichkeit das Wickelns in Zustand bis genommen hat von . R t + 1 π t Σ p ( s ' , r | s , a ) r v π s ' a srRt+1πtΣp(s,r|s,a)rvπsas
Sean Easter

1

Obwohl die richtige Antwort bereits gegeben wurde und einige Zeit vergangen ist, hielt ich die folgende schrittweise Anleitung für nützlich:
Durch Linearität des erwarteten Wertes können wir in und . Ich werde die Schritte nur für den ersten Teil skizzieren, da dem zweiten Teil dieselben Schritte folgen, die mit dem Gesetz der totalen Erwartung kombiniert sind.E[Rt+1+γE[Gt+1|St=s]]E[Rt+1|St=s]γE[Gt+1|St=s]

E[Rt+1|St=s]=rrP[Rt+1=r|St=s]=arrP[Rt+1=r,At=a|St=s](III)=arrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=sarrP[St+1=s,Rt+1=r|At=a,St=s]P[At=a|St=s]=aπ(a|s)s,rp(s,r|s,a)r

Während (III) folgende Form hat: