Lassen Sie uns zunächst versuchen, ein solides Verständnis dafür aufzubauen, was bedeutet. Vielleicht wissen Sie das alles, aber meiner Meinung nach ist es trotzdem gut, darüber nachzudenken.δ
δ←R+γv^(S′,w)−v^(S,w)
Beginnen wir mit dem Begriff . Dieser Term ist der Wert des Zustands , wie er vom Kritiker unter der aktuellen Parametrisierung geschätzt wird . Dieser Zustandswert ist im Wesentlichen die abgezinste Summe aller Belohnungen, die wir ab diesem Zeitpunkt erwarten.v^(S,w)Sw
v^(S′,w) hat eine sehr ähnliche Bedeutung, mit dem einzigen Unterschied, dass es der Wert für den nächsten Zustand anstelle des vorherigen Zustands . Wenn wir dies durch Multiplikation mit diskontieren und die beobachtete Belohnung dazu addieren , erhalten wir den Teil der rechten Seite der Gleichung vor dem Minus: . Dies hat im Wesentlichen die gleiche Bedeutung wie (es ist eine Schätzung des Wertes des vorherigen Zustands ), diesmal basiert es jedoch auf einigen neu beobachteten Informationen (S′SγRR+γv^(S′,w)v^(S,w)SR) und eine Schätzung des Wertes des nächsten Zustands, anstatt nur eine Schätzung eines Zustands in seiner Gesamtheit zu sein.
Also, ist der Unterschied zwischen zwei verschiedenen Arten von Schätzen genau den gleichen Wert, mit einem Teil (links von der Minus) erwartet wird , um eine etwas zuverlässige Schätzung zu sein , weil es auf einem kleines basierte mehr Informationen Bit , das bekannt ist , korrekt zu sein ( ).δR
δ ist positiv, wenn der Übergang von zu eine größere Belohnung ergab als der erwartete Kritiker, und negativ, wenn er kleiner als der erwartete Kritiker war (basierend auf der aktuellen Parametrisierung ).SS′Rw
Sollte ich nicht den Gradienten einer objektiven Funktion betrachten, die ich minimieren möchte? Zu Beginn des Kapitels stellt er fest, dass wir die Leistung der Richtlinie einfach als ihre Wertfunktion betrachten können. In diesem Fall passen wir nur die Parameter in die Richtung an, die den Wert jedes Zustands maximiert? Ich dachte, dass dies durch Anpassung der Politik geschehen sollte, nicht durch Änderung der Bewertung eines Staates.
Ja, dies sollte getan werden, und genau das wird in der folgenden Zeile getan:
θ←θ+αIδ∇θlogπ(A∣S,θ)
Dies ist jedoch nicht das einzige, was wir aktualisieren möchten.
Ich kann verstehen, dass Sie den Schauspieler aktualisieren möchten, indem Sie Informationen über den Statuswert (vom Kritiker festgelegt) einbeziehen. Dies geschieht durch den Wert von δ, der diese Informationen enthält, aber ich verstehe nicht ganz, warum es sich um den Gradienten der Zustandswertfunktion handelt?
Wir wollen das AUCH tun, weil der Kritiker den Zustandswert immer so gut wie möglich einschätzen soll. Wenn ungleich Null ist, bedeutet dies, dass wir einen Fehler im Kritiker gemacht haben. Daher möchten wir den Kritiker auch aktualisieren, um genauer zu werden.δ