Ableiten der Bellman-Gleichung beim Reinforcement Learning


Antworten:


7

Dies ist die Antwort für alle, die sich über die saubere, strukturierte Mathematik dahinter wundern (dh wenn Sie zu der Gruppe von Menschen gehören, die wissen, was eine Zufallsvariable ist und die Sie zeigen oder annehmen müssen, dass eine Zufallsvariable eine Dichte hat, dann ist dies die richtige die antwort für dich ;-)):

Zunächst muss der Markov-Entscheidungsprozess nur eine endliche Anzahl von Belohnungen haben, dh es muss eine endliche Menge von Dichten existieren, die jeweils zu Variablen gehören, dh für alle und eine Abbildung so dass (dh in den Automaten hinter dem MDP kann es unendlich viele Zustände geben, aber es gibt nur endlich viele Belohnungsverteilungen, die an die möglicherweise unendlichen Übergänge zwischen den Zuständen gebunden sind)L1EL1Rxe(x)dx<eEF:A×SE

p(rt|at,st)=F(at,st)(rt)
L1

Satz 1 : Sei (dh eine integrierbare reelle Zufallsvariable) und sei eine andere Zufallsvariable, so dass eine gemeinsame Dichte haben, dann XL1(Ω)YX,Y

E[X|Y=y]=Rxp(x|y)dx

Beweis : Im Wesentlichen bewiesen hier von Stefan Hansen.

Satz 2 : Sei und sei eine weitere Zufallsvariable, so dass eine gemeinsame Dichte haben, dann ist wobei der Bereich von .XL1(Ω)Y,ZX,Y,Z

E[X|Y=y]=Zp(z|y)E[X|Y=y,Z=z]dz
ZZ

Beweis :

E[X|Y=y]=Rxp(x|y)dx    (by Thm. 1)=Rxp(x,y)p(y)dx=RxZp(x,y,z)dzp(y)dx=ZRxp(x,y,z)p(y)dxdz=ZRxp(x|y,z)p(z|y)dxdz=Zp(z|y)Rxp(x|y,z)dxdz=Zp(z|y)E[X|Y=y,Z=z]dz    (by Thm. 1)

Setzen und setzen dann kann man zeigen (unter Verwendung der Tatsache, dass der MDP nur endlich viele Belohnungen hat), dass konvergiert und dass seit der Funktionist immer noch in (dh integrierbare) ein (durch die übliche Kombination der Sätze der monotonen Konvergenz und anschließend dominierte Konvergenz auf den Definitionsgleichungen für [die Faktorisierungen] die bedingten Erwartung) zeigt auch , dass Nun zeigt man das Gt=k=0γkRt+kGt(K)=k=0KγkRt+kL1Gt(K)k=0γk|Rt+k|L1(Ω)

limKE[Gt(K)|St=st]=E[Gt|St=st]
E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1(K1)|St+1=st+1]dst+1
Verwendung von , Thm. 2 über dann Thm. 1 auf und dann unter Verwendung eines direkten Marginalisierungskrieges zeigt man, dass für alle . Nun müssen wir die Grenze auf beide Seiten der Gleichung anwenden . Um die Grenze in das Integral über den Zustandsraum , müssen wir einige zusätzliche Annahmen treffen:Gt(K)=Rt+γGt+1(K1)E[Gt+1(K1)|St+1=s,St=st]p(rq|st+1,st)=p(rq|st+1)qt+1KS

Entweder ist der Zustandsraum endlich (dann ist und die Summe ist endlich) oder alle Belohnungen sind positiv (dann verwenden wir monotone Konvergenz) oder alle Belohnungen sind negativ (dann setzen wir ein Minuszeichen vor das Gleichung und verwenden wieder monotone Konvergenz) oder alle Belohnungen sind begrenzt (dann verwenden wir dominierte Konvergenz). Dann (durch Anwenden von auf beide Seiten der partiellen / endlichen Bellman-Gleichung oben) erhalten wirS=SlimK

E[Gt|St=st]=E[Gt(K)|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1|St+1=st+1]dst+1

und dann ist der Rest die übliche Dichtemanipulation.

BEMERKUNG: Selbst bei sehr einfachen Aufgaben kann der Zustandsraum unendlich sein! Ein Beispiel wäre die Aufgabe "Balancieren einer Stange". Der Zustand ist im Wesentlichen der Winkel des Pols (ein Wert in , eine unzählige Menge!)[0,2π)

BEMERKUNG: Die Leute könnten Teig kommentieren, dieser Beweis kann viel mehr verkürzt werden, wenn Sie nur die Dichte von direkt verwenden und zeigen, dass '... ABER ... meine Fragen wären:Gtp(gt+1|st+1,st)=p(gt+1|st+1)

  1. Woher wissen Sie überhaupt, dass eine Dichte hat?Gt+1
  2. Woher wissen Sie überhaupt, dass eine gemeinsame Dichte mit ?Gt+1St+1,St
  3. Wie kann man auf ? Dies ist nicht nur die Markov-Eigenschaft: Die Markov-Eigenschaft sagt Ihnen nur etwas über die Randverteilungen aus, aber diese bestimmen nicht unbedingt die gesamte Verteilung, siehe zB multivariate Gaußsche!p(gt+1|st+1,st)=p(gt+1|st+1)

10

Die Gesamtsumme der reduzierten Belohnungen nach dem Zeitpunkt sei: G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . .t
Gt=Rt+1+γRt+2+γ2Rt+3+...

Der Nutzwert des Starts in Zustand zum Zeitpunkt entspricht der erwarteten Summe der abgezinsten Belohnungen des Ausführens der Richtlinie ab Zustand . Definitionsgemäß ist Nach dem Gesetz der Linearität Nach dem Gesetz vont R π s U π ( S t = s ) = E π [ G t | S t = s ]st
Rπs
Uπ(St=s)=Eπ[Gt|St=s]
G t = E π [ ( R t + 1 + γ ( R t + 2 + γ R t + 3 + . . .=Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]Gt
= E π [ ( R t + 1 + γ ( G t + 1 ) ) | S t = s ] = E π [ R t + 1 | S t = s ] + & ggr; E & pgr; [ G t + 1 | S t = s ]=Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
=Eπ[(Rt+1+γ(Gt+1))|St=s]
=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
= E π [ R t + 1 | S t = s ] + & ggr; E & pgr; [ U=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s)|St=s]Gesamterwartung Per Definition von Nach dem Gesetz der Linearität
U π = E π [ R t + 1 + γ U π ( S t + 1 = s ) | S t = s ]=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s)|St=s]Uπ
=Eπ[Rt+1+γUπ(St+1=s)|St=s]

Angenommen, der Prozess erfüllt die Markov-Eigenschaft:
Wahrscheinlichkeit , dass er in Zustand endet nachdem er von Zustand aus gestartet und die Aktion hat. und Belohnung des Endes in Zustand nachdem von Zustand und die Aktion , s ' s ein P r ( s ' | s , a ) = P r ( S t + 1 = s ' , S t = s , A t = a ) R s ' s ein R ( s , a , s ' ) = [ R t + 1 | S tPrssa
Pr(s|s,a)=Pr(St+1=s,St=s,At=a)
Rssa
R(s,a,s)=[Rt+1|St=s,At=a,St+1=s]

Daher können wir die obige wie :
=aπ(a|s)sPr(s|s,a)[R(s,a,s)+γUπ(St+1=s)]

Woher; : Handlungswahrscheinlichkeit im Zustand für eine stochastische Politik. Für deterministische Richtlinien ista s a π ( a | s ) = 1π(a|s)asaπ(a|s)=1


Nur ein paar Anmerkungen: Die Summe über ist auch in einer stochastischen Politik gleich 1, aber in einer deterministischen Politik gibt es nur eine Aktion, die das volle Gewicht erhält (dh und den Rest Erhalte ein Gewicht von 0, so dass der Term aus der Gleichung entfernt wird.Auch in der Zeile, in der du das Gesetz der totalen Erwartung benutzt hast, ist die Reihenfolge der Bedingungen umgekehrtπ ( a | s ) = 1ππ(a|s)=1
Gilad Peleg

1
Ich bin mir ziemlich sicher, dass diese Antwort falsch ist: Folgen wir den Gleichungen nur bis zur Linie, die das Gesetz der totalen Erwartung beinhaltet. Dann die linke Seite hängt nicht von , während die rechte Seite tut ... Dh , wenn die Gleichungen richtig sind dann für die sind sie korrekt? Sie müssen bereits in diesem Stadium eine Art Integral über . Der Grund ist wahrscheinlich Ihr Missverständnis des Unterschieds von (eine Zufallsvariable) zu seiner Faktorisierung (eine deterministische Funktion!) ...s ' s ' E [ X | Y ] E [ X | Y = y ]sssE[X|Y]E[X|Y=y]
Fabian Werner

@ FabianWerner Ich bin damit einverstanden, dass dies nicht korrekt ist. Die Antwort von Jie Shi ist die richtige Antwort.
Teucer

@teucer Diese Antwort kann korrigiert werden, weil nur eine gewisse "Symmetrisierung" fehlt, dh aber die Frage ist dieselbe wie bei Jie Shis Antwort: Warum ist ? Dies ist nicht nur die Markov-Eigenschaft, da ein wirklich kompliziertes Wohnmobil ist: Konvergiert es überhaupt? Wenn ja, wo? Was ist die gemeinsame Dichte ? Wir kennen diesen Ausdruck nur für endliche Summen (komplizierte Faltung), aber für den unendlichen Fall? E [ G t + 1 | S t + 1 = s t + 1 , S t = s t ]E[A|C=c]=range(B)p(b|c)E[A|B=b,C=c]dPB(b)G t + 1 p ( g t + 1 , s t + 1 , s t )E[Gt+1|St+1=st+1,St=st]=E[Gt+1|St+1=st+1]Gt+1p(gt+1,st+1,st)
Fabian Werner

@ FabianWerner ist sich nicht sicher, ob ich alle Fragen beantworten kann. Nachfolgend einige Hinweise. Für die Konvergenz von ist es vernünftig anzunehmen, dass die Serie konvergiert (der Diskontierungsfaktor ist und wo sie konvergiert, spielt keine Rolle) , da es sich um die Summe der reduzierten Belohnungen handelt . Die Dichte interessiert mich nicht (man kann immer eine gemeinsame Dichte definieren, solange wir zufällige Variablen haben), es ist nur wichtig, ob sie gut definiert ist und in diesem Fall. < 1Gt+1<1
10.

8

Hier ist mein Beweis. Es basiert auf der Manipulation von bedingten Verteilungen, was das Verfolgen erleichtert. Hoffe dieser hilft dir.

vπ(s)=E[Gt|St=s]=E[Rt+1+γGt+1|St=s]=srgt+1ap(s,r,gt+1,a|s)(r+γgt+1)=ap(a|s)srgt+1p(s,r,gt+1|a,s)(r+γgt+1)=ap(a|s)srgt+1p(s,r|a,s)p(gt+1|s,r,a,s)(r+γgt+1)Note that p(gt+1|s,r,a,s)=p(gt+1|s) by assumption of MDP=ap(a|s)srp(s,r|a,s)gt+1p(gt+1|s)(r+γgt+1)=ap(a|s)srp(s,r|a,s)(r+γgt+1p(gt+1|s)gt+1)=ap(a|s)srp(s,r|a,s)(r+γvπ(s))
Dies ist die berühmte Bellman-Gleichung.


Haben Sie etwas dagegen, diesen Kommentar "Beachten Sie, dass ..." ein wenig mehr zu erklären? Warum haben diese Zufallsvariablen und die Zustands- und Aktionsvariablen überhaupt eine gemeinsame Dichte? Wenn ja, warum kennen Sie diese Eigenschaft, die Sie verwenden? Ich kann sehen, dass es für eine endliche Summe gilt, aber wenn die Zufallsvariable eine Grenze ist ... ??? Gt+1
Fabian Werner

Zu Fabian: Erinnern wir uns zunächst an . . Es ist zu beachten, dass nur direkt von und abhängt, da alle Übergangsinformationen eines MDP erfasst (genauer gesagt, ist unabhängig von allen Zuständen, Aktionen und Belohnungen vor dem Zeitpunkt wenn und . In ähnlicher Weise hängt nur von und . Infolgedessen ist unabhängig von , G t + 1 = R t + 2 + R t + 3 + R t + 2 S t + 1 A t + 1 p ( s ' , r | s , a ) R t + 2 t + 1 S t + 1 A t + 1 R t +Gt+1Gt+1=Rt+2+Rt+3+Rt+2St+1At+1p(s,r|s,a)Rt+2t+1St+1At+1 S t + 2 A t + 2 G t + 1 S t A t R t S t + 1Rt+3St+2At+2Gt+1StAtund gegeben , was diese Zeile erklärt. RtSt+1
Jie Shi

Tut mir leid, das "motiviert" es nur, es erklärt eigentlich nichts. Zum Beispiel: Was ist die Dichte von ? Warum bist du sicher, dass ? Warum haben diese Zufallsvariablen überhaupt eine gemeinsame Dichte? Sie wissen, dass sich eine Summe in eine Faltung in Dichten verwandelt. Also, was ... sollte eine unendliche Anzahl von Integralen in der Dichte haben? Es gibt absolut keinen Kandidaten für die Dichte! p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 ) G t + 1Gt+1p(gt+1|st+1,st)=p(gt+1|st+1)Gt+1
Fabian Werner

Zu Fabian: Ich verstehe deine Frage nicht. 1. Sie wollen die genaue Form der Randverteilung ? Ich weiß es nicht und wir brauchen es in diesem Beweis nicht. 2. Warum ist ? Denn wie ich bereits erwähnt habe, sind und unabhängig voneinander, wenn . 3. Was meinst du mit "gemeinsame Dichte"? Du meinst gemeinsame Verteilung? Sie möchten wissen, warum diese Zufallsvariablen eine gemeinsame Verteilung haben? Alle Zufallsvariablen in diesem Universum können eine gemeinsame Verteilung haben. Wenn dies Ihre Frage ist, empfehle ich Ihnen, ein Buch zur Wahrscheinlichkeitstheorie zu finden und es zu lesen. p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 ) g t + 1 s t s t + 1p(gt+1)p(gt+1|st+1,st)=p(gt+1|st+1)gt+1stst+1
Jie Shi

Verschieben wir diese Diskussion in den Chat: chat.stackexchange.com/rooms/88952/bellman-equation
Fabian Werner

2

Was ist mit dem folgenden Ansatz?

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)Eπ[Rt+1+γGt+1St=s,At+1=a,St+1=s,Rt+1=r]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)].

Die Summen werden eingeführt, um , und von abzurufen . Immerhin können die möglichen Aktionen und möglichen nächsten Zustände sein. Mit diesen zusätzlichen Bedingungen führt die Linearität der Erwartung fast direkt zum Ergebnis.s ' r sasrs

Ich bin mir jedoch nicht sicher, wie streng meine Argumentation mathematisch ist. Ich bin offen für Verbesserungen.


Die letzte Zeile funktioniert nur aufgrund der MDP-Eigenschaft.
Teucer

2

Dies ist nur ein Kommentar / eine Ergänzung zu der akzeptierten Antwort.

Ich war verwirrt, als das Gesetz der totalen Erwartung angewendet wurde. Ich denke nicht, dass die Hauptform des Gesetzes der totalen Erwartung hier helfen kann. Eine Variante davon wird hier tatsächlich benötigt.

Wenn Zufallsvariablen sind und vorausgesetzt, dass alle Erwartungen erfüllt sind, gilt die folgende Identität:X,Y,Z

E[X|Y]=E[E[X|Y,Z]|Y]

In diesem Fall ist , und . DannX=Gt+1Y=StZ=St+1

E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s|St=s] , die von Markov - Eigenschaft eqauls zuE[E[Gt+1|St+1=s]|St=s]

Von dort konnte man den Rest des Beweises aus der Antwort folgen.


1
Willkommen zum Lebenslauf! Bitte verwenden Sie die Antworten nur zur Beantwortung der Frage. Sobald Sie über eine ausreichende Reputation (50) verfügen, können Sie Kommentare hinzufügen.
Frans Rodenburg

Vielen Dank. Ja, da ich wegen mangelnder Reputation keinen Kommentar abgeben konnte, hielt ich es für nützlich, die Erklärung zu den Antworten hinzuzufügen. Aber das werde ich mir merken.
Mehdi Golari

Ich habe zwar zugestimmt, aber dennoch fehlen dieser Antwort Details: Auch wenn diese verrückte Beziehung befriedigt, garantiert niemand, dass dies auch für die Faktorisierung der bedingten Erwartungen gilt! Dh wie im Fall mit der Antwort von Ntabgoba: Die linke Seite hängt nicht von während die rechte Seite es tut . Diese Gleichung kann nicht richtig sein! s 'E[X|Y]s
Fabian Werner

1

ππ(a | s)asEπ() bezeichnet normalerweise die Erwartung, dass der Agent der Richtlinie folgt . In diesem Fall scheint nicht deterministisch zu sein, dh es wird die Wahrscheinlichkeit zurückgegeben, dass der Agent im Zustand Aktion .ππ(a|s)as

Es sieht so aus, als ob in Kleinbuchstaben , eine Zufallsvariable, ersetzt. Die zweite Erwartung ersetzt die unendliche Summe, um die Annahme widerzuspiegeln, dass wir weiterhin für alle zukünftigen folgen . ist dann die erwartete sofortige Belohnung beim nächsten Zeitschritt; Die zweite Erwartung - die zu - ist der Erwartungswert des nächsten Zustands, gewichtet mit der Wahrscheinlichkeit, in dem Zustand aufzuwachsen, der von .R t + 1 π t s ' , r r p ( s ' , r | s , a ) v π s ' a srRt+1πts,rrp(s,r|s,a)vπsas

Somit berücksichtigt die Erwartung die politische Wahrscheinlichkeit sowie die Übergangs- und Belohnungsfunktionen, die hier zusammen als ausgedrückt werden .p(s,r|s,a)


Vielen Dank. Ja, was Sie über ist korrekt (es ist die Wahrscheinlichkeit, dass der Agent im Zustand Aktion ). a sπ(a|s)as
Amelio Vazquez-Reina

Was ich nicht verfolge, ist, welche Ausdrücke im zweiten Schritt genau zu welchen Ausdrücken erweitert werden (ich bin mit Wahrscheinlichkeitsfaktorisierung und Marginalisierung vertraut, aber nicht so sehr mit RL). Wird der Begriff erweitert? Dh was genau im vorigen Schritt ist gleich was genau im nächsten Schritt? Rt
Amelio Vazquez-Reina

1
Anscheinend ersetzt in Kleinbuchstaben , eine Zufallsvariable, und die zweite Erwartung ersetzt die unendliche Summe (wahrscheinlich, um die Annahme widerzuspiegeln, dass wir weiterhin für alle zukünftigen verfolgen ). ist dann die erwartete sofortige Belohnung beim nächsten Zeitschritt, und die zweite Erwartung - die zu - ist der erwartete Wert des nächsten Zustands, gewichtet mit der Wahrscheinlichkeit das Wickelns in Zustand bis genommen hat von . R t + 1 π t Σ p ( s ' , r | s , a ) r v π s ' a srRt+1πtΣp(s,r|s,a)rvπsas
Sean Easter

1

Obwohl die richtige Antwort bereits gegeben wurde und einige Zeit vergangen ist, hielt ich die folgende schrittweise Anleitung für nützlich:
Durch Linearität des erwarteten Wertes können wir in und . Ich werde die Schritte nur für den ersten Teil skizzieren, da dem zweiten Teil dieselben Schritte folgen, die mit dem Gesetz der totalen Erwartung kombiniert sind.E[Rt+1+γE[Gt+1|St=s]]E[Rt+1|St=s]γE[Gt+1|St=s]

E[Rt+1|St=s]=rrP[Rt+1=r|St=s]=arrP[Rt+1=r,At=a|St=s](III)=arrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=sarrP[St+1=s,Rt+1=r|At=a,St=s]P[At=a|St=s]=aπ(a|s)s,rp(s,r|s,a)r

Während (III) folgende Form hat:

P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]


1

Ich weiß, dass es bereits eine akzeptierte Antwort gibt, aber ich möchte eine wahrscheinlich konkretere Ableitung geben. Ich möchte auch erwähnen, dass der @ Jie Shi-Trick zwar etwas Sinn macht, ich mich aber sehr unwohl fühle :(. Wir müssen die zeitliche Dimension berücksichtigen, damit dies funktioniert. Und es ist wichtig zu beachten, dass die Erwartung tatsächlich ist der gesamten unendlichen Horizont übernommen, anstatt nur über und . Nehmen wir an , wir beginnen (in der Tat ist die Ableitung gleich , unabhängig von der Startzeit; ich die Gleichungen mit einem anderen Index nicht verunreinigen wollen ) sst=0k

vπ(s0)=Eπ[G0|s0]G0=t=0T1γtRt+1Eπ[G0|s0]=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(t=0T1γtrt+1))=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(r1+γt=0T2γtrt+2))
beachten , dass die obige Gleichung gilt selbst IF , TATSÄCHLICH WIRD ES BIS ZUM ENDE DES UNIVERSUMS WAHR SEIN (vielleicht etwas übertrieben :))T
Ich glaube, die meisten von uns sollten sich zu diesem Zeitpunkt bereits vor Augen halten, wie das oben zum endgültigen Ausdruck führt - wir müssen nur die ( ) sorgfältig . Wenden wir das Gesetz der Linearität der Erwartung auf jeden Term imabcabcaabbcc(r1+γt=0T2γtrt+2)

Teil 1

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×r1)

Nun, das ist ziemlich trivial, alle Wahrscheinlichkeiten verschwinden (tatsächlich summieren sich zu 1), mit Ausnahme derjenigen, die mit . Daher haben wir r1

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×r1

Teil 2
Ratet mal, dieser Teil ist noch trivialer - es geht nur darum, die Reihenfolge der Summierungen neu zu ordnen.

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at))=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)(a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))

Und Eureka !! Wir stellen ein rekursives Muster in den großen Klammern wieder her. Kombinieren wir es mit , und wir erhalten und Teil 2 wird γt=0T2γtrt+2vπ(s1)=Eπ[G1|s1]

γEπ[G1|s1]=a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1))(γt=0T2γtrt+2)

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×γvπ(s1)

Teil 1 + Teil 2

vπ(s0)=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))

Und jetzt, wenn wir die Zeitdimension einbauen und die allgemeinen rekursiven Formeln wiederherstellen können

vπ(s)=aπ(a|s)s,rp(s,r|s,a)×(r+γvπ(s))

Als ich mein letztes Geständnis ablegte, lachte ich, als ich die Leute oben sah, die die Anwendung des Gesetzes der totalen Erwartung erwähnten. So, hier bin ich


Ähm ... was soll das Symbol ' ' bedeuten? Es gibt keine ...a0,...,aa
Fabian Werner

Eine andere Frage: Warum ist die allererste Gleichung wahr? Ich kenne aber in unserem Fall wäre eine unendliche Folge von Zufallsvariablen also müssten wir die Dichte dieser Variablen (bestehend aus einer unendlichen Menge von Variablen, deren Dichte wir kennen) zusammen mit etwas anderem (nämlich dem Zustand) berechnen. .. Wie genau machst du das? Dh was ist ? E[f(X)|Y=y]=Xf(x)p(x|y)dxX(R0,R1,R2,........)p(r0,r1,....)
Fabian Werner

@ FabianWerner. Atme tief ein, um dein Gehirn zu beruhigen :). Lassen Sie mich Ihre erste Frage beantworten. . Wenn Sie sich an die Definition der Wertfunktion erinnern, handelt es sich tatsächlich um eine Summe der künftigen rabattierten Belohnungen. Wenn wir einen unendlichen Horizont für unsere zukünftigen Belohnungen betrachten, müssen wir unendlich oft summieren. Eine Belohnung ist das Ergebnis einer Aktion aus einem Staat, da es unendlich viele Belohnungen gibt, sollte es unendlich viele Aktionen geben, daher . a0,...,aa0a1,...,aa
Karlsson Yu

1
Nehmen wir an, dass ich einverstanden bin, dass es einige seltsame (die ich immer noch bezweifle, dass Studenten im ersten Semester der Mathematik normalerweise dazu neigen, die Grenze mit Konstruktionen zu verwechseln, die tatsächlich ein unendliches Element beinhalten) ... ich immer noch Ich habe eine einfache Frage: Wie ist definiert? Ich weiß, was dieser Ausdruck mit einer endlichen Menge von Summen bedeuten soll ... aber unendlich viele von ihnen? Was verstehen Sie unter diesem Ausdruck? aa1...a
Fabian Werner

1
Internet. Könnten Sie mich auf eine Seite oder einen Ort verweisen, der Ihren Ausdruck definiert? Wenn nicht, dann haben Sie tatsächlich etwas Neues definiert und es hat keinen Sinn, dies zu diskutieren, da es sich nur um ein Symbol handelt, das Sie erfunden haben (aber es steckt keine Bedeutung dahinter). Sie stimmen zu, dass wir nur über das Symbol diskutieren können Wenn wir beide wissen, was es bedeutet, richtig? Also, ich weiß nicht, was es bedeutet, bitte erklären Sie ...
Fabian Werner

1

Es gibt bereits sehr viele Antworten auf diese Frage, aber die meisten enthalten nur wenige Worte, die beschreiben, was bei den Manipulationen vor sich geht. Ich werde es mit viel mehr Worten beantworten, denke ich. Anfangen,

Gtk=t+1Tγkt1Rk

ist in Gleichung 3.11 von Sutton und Barto definiert, mit einem konstanten Abzinsungsfaktor und wir können oder , aber nicht beide. Da die Belohnungen Zufallsvariablen sind, ist es auch da es sich lediglich um eine lineare Kombination von Zufallsvariablen handelt.0γ1T=γ=1RkGt

vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]

Diese letzte Zeile folgt aus der Linearität der Erwartungswerte. ist die Belohnung, die der Agent erhält, nachdem er zum Zeitpunkt Maßnahmen . Der Einfachheit halber gehe ich davon aus, dass es eine endliche Anzahl von Werten annehmen kann: . Rt+1trR

Arbeite an der ersten Amtszeit. In Worten muss ich die Erwartungswerte von berechnen, , wir wissen, dass der aktuelle Zustand . Die Formel dafür lautetRt+1s

Eπ[Rt+1|St=s]=rRrp(r|s).

Mit anderen Worten ist die Wahrscheinlichkeit des Auftretens der Belohnung vom Zustand abhängig ; Verschiedene Staaten können unterschiedliche Belohnungen haben. Diese -Verteilung ist eine Randverteilung einer Verteilung, die auch die Variablen und , die zum Zeitpunkt Aktion und den Zustand zum Zeitpunkt nach der Aktion enthielt :rsp(r|s)astt+1

p(r|s)=sSaAp(s,a,r|s)=sSaAπ(a|s)p(s,r|a,s).

Wo ich , der Konvention des Buches. Wenn diese letzte Gleichheit verwirrend ist, vergessen Sie die Summen, unterdrücken Sie das (die Wahrscheinlichkeit sieht jetzt wie eine gemeinsame Wahrscheinlichkeit aus), verwenden Sie das Multiplikationsgesetz und führen Sie die Bedingung für in allen neuen Begriffen wieder ein. Es ist jetzt leicht zu erkennen, dass der erste Begriff istπ(a|s)p(a|s)ss

Eπ[Rt+1|St=s]=rRsSaArπ(a|s)p(s,r|a,s),

nach Bedarf. Zum zweiten Term, wo ich annehme, dass eine Zufallsvariable ist, die eine endliche Anzahl von Werten annimmt . Genau wie im ersten Semester:Gt+1gΓ

Eπ[Gt+1|St=s]=gΓgp(g|s).()

Noch einmal, ich "entmarginalisiere" die Wahrscheinlichkeitsverteilung durch Schreiben (Gesetz der Multiplikation erneut)

p(g|s)=rRsSaAp(s,r,a,g|s)=rRsSaAp(g|s,r,a,s)p(s,r,a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s)p(s,r|a,s)π(a|s)()

Die letzte Zeile dort folgt aus der Markovian-Eigenschaft. Denken Sie daran, dass die Summe aller zukünftigen (abgezinsten) Belohnungen ist, die der Agent nach dem Status erhält . Die markovianische Eigenschaft ist, dass der Prozess in Bezug auf vorherige Zustände, Aktionen und Belohnungen speicherlos ist. Künftige Maßnahmen (und die Belohnungen , die sie ernten) hängen nur von dem Zustand , in dem die Maßnahmen ergriffen werden, so , durch Annahme. Ok, der zweite Term im Beweis ist jetztGt+1sp(g|s,r,a,s)=p(g|s)

γEπ[Gt+1|St=s]=γgΓrRsSaAgp(g|s)p(s,r|a,s)π(a|s)=γrRsSaAEπ[Gt+1|St+1=s]p(s,r|a,s)π(a|s)=γrRsSaAvπ(s)p(s,r|a,s)π(a|s)

nach Bedarf noch einmal. Die Kombination der beiden Begriffe vervollständigt den Beweis

vπ(s)Eπ[GtSt=s]=aAπ(a|s)rRsSp(s,r|a,s)[r+γvπ(s)].

AKTUALISIEREN

Ich möchte darauf eingehen, was bei der Herleitung des zweiten Terms wie ein Kinderspiel aussehen könnte. In der mit gekennzeichneten Gleichung verwende ich einen Term und später in der mit gekennzeichneten Gleichung behaupte ich, dass nicht von abhängt , indem ich die Markovsche Eigenschaft argumentiere. Man könnte also sagen, wenn dies der Fall ist, dann ist . Aber das ist nicht wahr. Ich kann weil die Wahrscheinlichkeit auf der linken Seite dieser Aussage besagt, dass dies die Wahrscheinlichkeit von bedingt durch , , und()p(g|s)()gsp(g|s)=p(g)p(g|s,r,a,s)p(g|s)gsars. Weil wir entweder der Staat wissen oder annehmen , keiner der anderen conditionals Rolle, weil der Markow - Eigenschaft. Wenn Sie den Status nicht kennen oder nicht annehmen , hängt die zukünftige Belohnung (die Bedeutung von ) davon ab, in welchem ​​Status Sie beginnen, da dies (basierend auf der Richtlinie) bestimmt, in welchem ​​Status Sie bei der Berechnung beginnen .ssgsg

Wenn Sie dieses Argument nicht überzeugt, versuchen Sie zu berechnen, was ist:p(g)

p(g)=sSp(g,s)=sSp(g|s)p(s)=sSp(g|s)s,a,rp(s,a,r,s)=sSp(g|s)s,a,rp(s,r|a,s)p(a,s)=sSp(s)sSp(g|s)a,rp(s,r|a,s)π(a|s)sSp(s)p(g|s)=sSp(g,s)=p(g).

Wie in der letzten Zeile zu sehen ist, gilt . Der erwartete Wert von hängt davon ab, in welchem ​​Zustand Sie beginnen (dh von der Identität von ), wenn Sie den Zustand nicht kennen oder nicht annehmen .p(g|s)=p(g)gss

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.