Als «policy-iteration» getaggte Fragen

2
Warum konvergiert der Richtlinieniterationsalgorithmus zur optimalen Richtlinien- und Wertfunktion?
Ich las Andrew Ngs Vorlesungsunterlagen über das Lernen der Verstärkung und versuchte zu verstehen, warum die Richtlinieniteration zur optimalen Wertfunktion und zur optimalen Richtlinie konvergierte .V.∗V.∗V^*π∗π∗\pi^* Die Iteration der Rückrufrichtlinie lautet: Initialisiere π nach dem ZufallsprinzipWiederhole {L e t V. : = V.π \ Lösen Sie für die aktuelle Richtlinie …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.