4
Was ist der Unterschied zwischen Wertiteration und Richtlinieniteration?
Was ist der Unterschied zwischen Richtlinieniteration und Wertiteration beim verstärkten Lernen ? Soweit ich weiß, verwenden Sie bei der Wertiteration die Bellman-Gleichung, um die optimale Richtlinie zu ermitteln, während Sie bei der Richtlinieniteration zufällig eine Richtlinie π auswählen und die Belohnung für diese Richtlinie ermitteln. Mein Zweifel ist, dass, wenn …