Antworten:
DP löst durch Rekursion die optimale Richtlinien- oder Wertefunktion. Es erfordert Kenntnisse des Markov-Entscheidungsprozesses (MDP) oder eines Modells der Welt, damit die Rekursionen durchgeführt werden können. Es wird in der Regel eher unter "Planen" als unter "Lernen" zusammengefasst, da Sie das MDP bereits kennen und nur herausfinden müssen, was (optimal) zu tun ist.
TD ist modellfrei: Es erfordert keine Kenntnis eines Modells der Welt. Es ist iterativ und simulationsbasiert und lernt durch Bootstrapping, dh der Wert eines Zustands oder einer Aktion wird unter Verwendung der Werte anderer Zustände oder Aktionen geschätzt.
Weitere Informationen finden Sie unter: