Programmierung markov-models

Als «markov-models» getaggte Fragen

Was ist der Unterschied zwischen Wertiteration und Richtlinieniteration?

Was ist der Unterschied zwischen Richtlinieniteration und Wertiteration beim verstärkten Lernen ? Soweit ich weiß, verwenden Sie bei der Wertiteration die Bellman-Gleichung, um die optimale Richtlinie zu ermitteln, während Sie bei der Richtlinieniteration zufällig eine Richtlinie π auswählen und die Belohnung für diese Richtlinie ermitteln. Mein Zweifel ist, dass, wenn …

88 machine-learning reinforcement-learning markov-models value-iteration