2
Warum konvergiert der Richtlinieniterationsalgorithmus zur optimalen Richtlinien- und Wertfunktion?
Ich las Andrew Ngs Vorlesungsunterlagen über das Lernen der Verstärkung und versuchte zu verstehen, warum die Richtlinieniteration zur optimalen Wertfunktion und zur optimalen Richtlinie konvergierte .V.∗V.∗V^*π∗π∗\pi^* Die Iteration der Rückrufrichtlinie lautet: Initialisiere π nach dem ZufallsprinzipWiederhole {L e t V. : = V.π \ Lösen Sie für die aktuelle Richtlinie …