Ich habe Zweifel, wie genau die Verlustfunktion eines Deep Q-Learning-Netzwerks trainiert wird. Ich verwende ein 2-Schicht-Feedforward-Netzwerk mit linearer Ausgangsschicht und relu versteckten Schichten.
- Nehmen wir an, ich habe 4 mögliche Aktionen. Somit ist der Ausgang von dem Netzwerk für den aktuellen Zustand ist . Um es konkreter zu machen, nehmen wir an, dass
- Jetzt nehme ich die Aktion entsprechend dem Wert dh die 3. Aktion, und erreiche einen neuen Zustand .
- Als nächstes berechne ich den Vorwärtsdurchlauf mit dem Zustand und nehme an, ich erhalte die folgenden Werte auf der Ausgangsschicht . Nehmen wir auch an, die Belohnung r_t = 2 und .
Ist der Verlust gegeben durch:
ODER
ODER
Vielen Dank, tut mir leid, dass ich das sehr einfach aufschreiben musste ... Ich bin durch die ganze Notation verwirrt. (Ich denke, die richtige Antwort ist die zweite ...)