Als «markov-models» getaggte Fragen

4
Was ist der Unterschied zwischen Wertiteration und Richtlinieniteration?
Was ist der Unterschied zwischen Richtlinieniteration und Wertiteration beim verstärkten Lernen ? Soweit ich weiß, verwenden Sie bei der Wertiteration die Bellman-Gleichung, um die optimale Richtlinie zu ermitteln, während Sie bei der Richtlinieniteration zufällig eine Richtlinie π auswählen und die Belohnung für diese Richtlinie ermitteln. Mein Zweifel ist, dass, wenn …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.