Unterschied zwischen dynamischer Programmierung und zeitlichem Differenzlernen beim Bestärkungslernen


8

Was ist beim verstärkten Lernen der Unterschied zwischen dynamischer Programmierung und zeitlichem Differenzlernen?

Antworten:


9

DP löst durch Rekursion die optimale Richtlinien- oder Wertefunktion. Es erfordert Kenntnisse des Markov-Entscheidungsprozesses (MDP) oder eines Modells der Welt, damit die Rekursionen durchgeführt werden können. Es wird in der Regel eher unter "Planen" als unter "Lernen" zusammengefasst, da Sie das MDP bereits kennen und nur herausfinden müssen, was (optimal) zu tun ist.

TD ist modellfrei: Es erfordert keine Kenntnis eines Modells der Welt. Es ist iterativ und simulationsbasiert und lernt durch Bootstrapping, dh der Wert eines Zustands oder einer Aktion wird unter Verwendung der Werte anderer Zustände oder Aktionen geschätzt.

Weitere Informationen finden Sie unter:

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.