Ich sehe die folgende Gleichung in " In Reinforcement Learning. Eine Einführung ", folge aber nicht ganz dem Schritt, den ich unten in Blau hervorgehoben habe. Wie genau leitet sich dieser Schritt ab?
Ich sehe die folgende Gleichung in " In Reinforcement Learning. Eine Einführung ", folge aber nicht ganz dem Schritt, den ich unten in Blau hervorgehoben habe. Wie genau leitet sich dieser Schritt ab?
Antworten:
Dies ist die Antwort für alle, die sich über die saubere, strukturierte Mathematik dahinter wundern (dh wenn Sie zu der Gruppe von Menschen gehören, die wissen, was eine Zufallsvariable ist und die Sie zeigen oder annehmen müssen, dass eine Zufallsvariable eine Dichte hat, dann ist dies die richtige die antwort für dich ;-)):
Zunächst muss der Markov-Entscheidungsprozess nur eine endliche Anzahl von Belohnungen haben, dh es muss eine endliche Menge von Dichten existieren, die jeweils zu Variablen gehören, dh für alle und eine Abbildung so dass
(dh in den Automaten hinter dem MDP kann es unendlich viele Zustände geben, aber es gibt nur endlich viele Belohnungsverteilungen, die an die möglicherweise unendlichen Übergänge zwischen den Zuständen gebunden sind)
Satz 1 : Sei (dh eine integrierbare reelle Zufallsvariable) und sei eine andere Zufallsvariable, so dass eine gemeinsame Dichte haben, dann
Beweis : Im Wesentlichen bewiesen hier von Stefan Hansen.
Satz 2 : Sei und sei eine weitere Zufallsvariable, so dass eine gemeinsame Dichte haben, dann ist
wobei der Bereich von .
Beweis :
Setzen und setzen dann kann man zeigen (unter Verwendung der Tatsache, dass der MDP nur endlich viele Belohnungen hat), dass konvergiert und dass seit der Funktionist immer noch in (dh integrierbare) ein (durch die übliche Kombination der Sätze der monotonen Konvergenz und anschließend dominierte Konvergenz auf den Definitionsgleichungen für [die Faktorisierungen] die bedingten Erwartung) zeigt auch , dass
Nun zeigt man das
Entweder ist der Zustandsraum endlich (dann ist und die Summe ist endlich) oder alle Belohnungen sind positiv (dann verwenden wir monotone Konvergenz) oder alle Belohnungen sind negativ (dann setzen wir ein Minuszeichen vor das Gleichung und verwenden wieder monotone Konvergenz) oder alle Belohnungen sind begrenzt (dann verwenden wir dominierte Konvergenz). Dann (durch Anwenden von auf beide Seiten der partiellen / endlichen Bellman-Gleichung oben) erhalten wir
und dann ist der Rest die übliche Dichtemanipulation.
BEMERKUNG: Selbst bei sehr einfachen Aufgaben kann der Zustandsraum unendlich sein! Ein Beispiel wäre die Aufgabe "Balancieren einer Stange". Der Zustand ist im Wesentlichen der Winkel des Pols (ein Wert in , eine unzählige Menge!)
BEMERKUNG: Die Leute könnten Teig kommentieren, dieser Beweis kann viel mehr verkürzt werden, wenn Sie nur die Dichte von direkt verwenden und zeigen, dass '... ABER ... meine Fragen wären:
Die Gesamtsumme der reduzierten Belohnungen nach dem Zeitpunkt sei:
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . .
Der Nutzwert des Starts in Zustand zum Zeitpunkt entspricht der erwarteten Summe der
abgezinsten Belohnungen des Ausführens der Richtlinie ab Zustand .
Definitionsgemäß ist Nach dem Gesetz der Linearität
Nach dem Gesetz vont R π s U π ( S t = s ) = E π [ G t | S t = s ]
G t = E π [ ( R t + 1 + γ ( R t + 2 + γ R t + 3 + . . .
= E π [ ( R t + 1 + γ ( G t + 1 ) ) | S t = s ] = E π [ R t + 1 | S t = s ] + & ggr; E & pgr; [ G t + 1 | S t = s ]
= E π [ R t + 1 | S t = s ] + & ggr; E & pgr; [ UGesamterwartung
Per Definition von Nach dem Gesetz der Linearität
U π = E π [ R t + 1 + γ U π ( S t + 1 = s ′ ) | S t = s ]
Angenommen, der Prozess erfüllt die Markov-Eigenschaft:
Wahrscheinlichkeit , dass er in Zustand endet nachdem er von Zustand aus gestartet und die Aktion hat.
und
Belohnung des Endes in Zustand nachdem von Zustand und die Aktion ,
s ' s ein P r ( s ' | s , a ) = P r ( S t + 1 = s ' , S t = s , A t = a ) R s ' s ein R ( s , a , s ' ) = [ R t + 1 | S t
Daher können wir die obige wie :
Woher; : Handlungswahrscheinlichkeit im Zustand für eine stochastische Politik. Für deterministische Richtlinien ista s ∑ a π ( a | s ) = 1
Hier ist mein Beweis. Es basiert auf der Manipulation von bedingten Verteilungen, was das Verfolgen erleichtert. Hoffe dieser hilft dir.
Was ist mit dem folgenden Ansatz?
Die Summen werden eingeführt, um , und von abzurufen . Immerhin können die möglichen Aktionen und möglichen nächsten Zustände sein. Mit diesen zusätzlichen Bedingungen führt die Linearität der Erwartung fast direkt zum Ergebnis.s ' r s
Ich bin mir jedoch nicht sicher, wie streng meine Argumentation mathematisch ist. Ich bin offen für Verbesserungen.
Dies ist nur ein Kommentar / eine Ergänzung zu der akzeptierten Antwort.
Ich war verwirrt, als das Gesetz der totalen Erwartung angewendet wurde. Ich denke nicht, dass die Hauptform des Gesetzes der totalen Erwartung hier helfen kann. Eine Variante davon wird hier tatsächlich benötigt.
Wenn Zufallsvariablen sind und vorausgesetzt, dass alle Erwartungen erfüllt sind, gilt die folgende Identität:
In diesem Fall ist , und . Dann
, die von Markov - Eigenschaft eqauls zu
Von dort konnte man den Rest des Beweises aus der Antwort folgen.
ππ(a | s)as bezeichnet normalerweise die Erwartung, dass der Agent der Richtlinie folgt . In diesem Fall scheint nicht deterministisch zu sein, dh es wird die Wahrscheinlichkeit zurückgegeben, dass der Agent im Zustand Aktion .
Es sieht so aus, als ob in Kleinbuchstaben , eine Zufallsvariable, ersetzt. Die zweite Erwartung ersetzt die unendliche Summe, um die Annahme widerzuspiegeln, dass wir weiterhin für alle zukünftigen folgen . ist dann die erwartete sofortige Belohnung beim nächsten Zeitschritt; Die zweite Erwartung - die zu - ist der Erwartungswert des nächsten Zustands, gewichtet mit der Wahrscheinlichkeit, in dem Zustand aufzuwachsen, der von .R t + 1 π t ∑ s ' , r r ⋅ p ( s ' , r | s , a ) v π s ' a s
Somit berücksichtigt die Erwartung die politische Wahrscheinlichkeit sowie die Übergangs- und Belohnungsfunktionen, die hier zusammen als ausgedrückt werden .
Obwohl die richtige Antwort bereits gegeben wurde und einige Zeit vergangen ist, hielt ich die folgende schrittweise Anleitung für nützlich:
Durch Linearität des erwarteten Wertes können wir
in und .
Ich werde die Schritte nur für den ersten Teil skizzieren, da dem zweiten Teil dieselben Schritte folgen, die mit dem Gesetz der totalen Erwartung kombiniert sind.
Während (III) folgende Form hat:
Ich weiß, dass es bereits eine akzeptierte Antwort gibt, aber ich möchte eine wahrscheinlich konkretere Ableitung geben. Ich möchte auch erwähnen, dass der @ Jie Shi-Trick zwar etwas Sinn macht, ich mich aber sehr unwohl fühle :(. Wir müssen die zeitliche Dimension berücksichtigen, damit dies funktioniert. Und es ist wichtig zu beachten, dass die Erwartung tatsächlich ist der gesamten unendlichen Horizont übernommen, anstatt nur über und . Nehmen wir an , wir beginnen (in der Tat ist die Ableitung gleich , unabhängig von der Startzeit; ich die Gleichungen mit einem anderen Index nicht verunreinigen wollen )
Ich glaube, die meisten von uns sollten sich zu diesem Zeitpunkt bereits vor Augen halten, wie das oben zum endgültigen Ausdruck führt - wir müssen nur die ( ) sorgfältig . Wenden wir das Gesetz der Linearität der Erwartung auf jeden Term im
Teil 1
Nun, das ist ziemlich trivial, alle Wahrscheinlichkeiten verschwinden (tatsächlich summieren sich zu 1), mit Ausnahme derjenigen, die mit . Daher haben wir
Teil 2
Ratet mal, dieser Teil ist noch trivialer - es geht nur darum, die Reihenfolge der Summierungen neu zu ordnen.
Und Eureka !! Wir stellen ein rekursives Muster in den großen Klammern wieder her. Kombinieren wir es mit , und wir erhalten
und Teil 2 wird
Teil 1 + Teil 2
Und jetzt, wenn wir die Zeitdimension einbauen und die allgemeinen rekursiven Formeln wiederherstellen können
Als ich mein letztes Geständnis ablegte, lachte ich, als ich die Leute oben sah, die die Anwendung des Gesetzes der totalen Erwartung erwähnten. So, hier bin ich
Es gibt bereits sehr viele Antworten auf diese Frage, aber die meisten enthalten nur wenige Worte, die beschreiben, was bei den Manipulationen vor sich geht. Ich werde es mit viel mehr Worten beantworten, denke ich. Anfangen,
ist in Gleichung 3.11 von Sutton und Barto definiert, mit einem konstanten Abzinsungsfaktor und wir können oder , aber nicht beide. Da die Belohnungen Zufallsvariablen sind, ist es auch da es sich lediglich um eine lineare Kombination von Zufallsvariablen handelt.
Diese letzte Zeile folgt aus der Linearität der Erwartungswerte. ist die Belohnung, die der Agent erhält, nachdem er zum Zeitpunkt Maßnahmen . Der Einfachheit halber gehe ich davon aus, dass es eine endliche Anzahl von Werten annehmen kann: .
Arbeite an der ersten Amtszeit. In Worten muss ich die Erwartungswerte von berechnen, , wir wissen, dass der aktuelle Zustand . Die Formel dafür lautet
Mit anderen Worten ist die Wahrscheinlichkeit des Auftretens der Belohnung vom Zustand abhängig ; Verschiedene Staaten können unterschiedliche Belohnungen haben. Diese -Verteilung ist eine Randverteilung einer Verteilung, die auch die Variablen und , die zum Zeitpunkt Aktion und den Zustand zum Zeitpunkt nach der Aktion enthielt :
Wo ich , der Konvention des Buches. Wenn diese letzte Gleichheit verwirrend ist, vergessen Sie die Summen, unterdrücken Sie das (die Wahrscheinlichkeit sieht jetzt wie eine gemeinsame Wahrscheinlichkeit aus), verwenden Sie das Multiplikationsgesetz und führen Sie die Bedingung für in allen neuen Begriffen wieder ein. Es ist jetzt leicht zu erkennen, dass der erste Begriff ist
nach Bedarf. Zum zweiten Term, wo ich annehme, dass eine Zufallsvariable ist, die eine endliche Anzahl von Werten annimmt . Genau wie im ersten Semester:
Noch einmal, ich "entmarginalisiere" die Wahrscheinlichkeitsverteilung durch Schreiben (Gesetz der Multiplikation erneut)
Die letzte Zeile dort folgt aus der Markovian-Eigenschaft. Denken Sie daran, dass die Summe aller zukünftigen (abgezinsten) Belohnungen ist, die der Agent nach dem Status erhält . Die markovianische Eigenschaft ist, dass der Prozess in Bezug auf vorherige Zustände, Aktionen und Belohnungen speicherlos ist. Künftige Maßnahmen (und die Belohnungen , die sie ernten) hängen nur von dem Zustand , in dem die Maßnahmen ergriffen werden, so , durch Annahme. Ok, der zweite Term im Beweis ist jetzt
nach Bedarf noch einmal. Die Kombination der beiden Begriffe vervollständigt den Beweis
AKTUALISIEREN
Ich möchte darauf eingehen, was bei der Herleitung des zweiten Terms wie ein Kinderspiel aussehen könnte. In der mit gekennzeichneten Gleichung verwende ich einen Term und später in der mit gekennzeichneten Gleichung behaupte ich, dass nicht von abhängt , indem ich die Markovsche Eigenschaft argumentiere. Man könnte also sagen, wenn dies der Fall ist, dann ist . Aber das ist nicht wahr. Ich kann weil die Wahrscheinlichkeit auf der linken Seite dieser Aussage besagt, dass dies die Wahrscheinlichkeit von bedingt durch , , und. Weil wir entweder der Staat wissen oder annehmen , keiner der anderen conditionals Rolle, weil der Markow - Eigenschaft. Wenn Sie den Status nicht kennen oder nicht annehmen , hängt die zukünftige Belohnung (die Bedeutung von ) davon ab, in welchem Status Sie beginnen, da dies (basierend auf der Richtlinie) bestimmt, in welchem Status Sie bei der Berechnung beginnen .
Wenn Sie dieses Argument nicht überzeugt, versuchen Sie zu berechnen, was ist:
Wie in der letzten Zeile zu sehen ist, gilt . Der erwartete Wert von hängt davon ab, in welchem Zustand Sie beginnen (dh von der Identität von ), wenn Sie den Zustand nicht kennen oder nicht annehmen .