Statistiken und Big Data policy-iteration

Als «policy-iteration» getaggte Fragen

Warum konvergiert der Richtlinieniterationsalgorithmus zur optimalen Richtlinien- und Wertfunktion?

Ich las Andrew Ngs Vorlesungsunterlagen über das Lernen der Verstärkung und versuchte zu verstehen, warum die Richtlinieniteration zur optimalen Wertfunktion und zur optimalen Richtlinie konvergierte .V.∗V.∗V^*π∗π∗\pi^* Die Iteration der Rückrufrichtlinie lautet: Initialisiere π nach dem ZufallsprinzipWiederhole {L e t V. : = V.π \ Lösen Sie für die aktuelle Richtlinie …

10 reinforcement-learning policy-iteration