Aus Gründen der Klarheit denke ich, dass Sie durch m a x a ( Q ( S ' , a ) ) ersetzen sollten, da es nur eine Aktionswertfunktion gibt. Wir bewerten nur Q für Aktionen in der nächste Zustand. Diese Notation weist auch darauf hin, wo das p ( s ' | s , a ) liegt.m a xein( Q.', A )m a xein( Q ( S.', a ) )p ( s'| s,a)
Intuitiv ist eine Eigenschaft der Umgebung. Wir kontrollieren nicht, wie es funktioniert, sondern probieren es einfach aus. Bevor wir dieses Update aufrufen, müssen wir zuerst eine Aktion A in Status S ausführen. Der Vorgang dazu gibt uns eine Belohnung und schickt uns in den nächsten Status. Der nächste Zustand, in dem Sie landen, wird per Definition aus p ( s ′ | s , a ) gezogen . Im Q-Learning-Update nehmen wir also im Wesentlichen an, dass p ( s ' | s , a ) 1 ist, weil wir dort gelandet sind.p ( s'| s,a)p ( s'| s,a)p ( s'| s,a)
Dies ist in Ordnung, da es sich um eine iterative Methode handelt, bei der die optimale Aktionswertfunktion geschätzt wird, ohne die vollständige Dynamik der Umgebung und insbesondere den Wert von . Wenn Sie zufällig ein Modell der Umgebung haben, das Ihnen diese Informationen liefert, können Sie das Update ändern, um es einzuschließen, indem Sie einfach die Rückkehr zu γ p ( S ' | S , A ) m a x a ( Q ( S ' , a ) ändern ) ) .p ( s | s', A )γp ( S.'| S., A ) m a xein( Q ( S.', a ) )