Wie genau wird die Deep Q-Learning Loss-Funktion berechnet?


10

Ich habe Zweifel, wie genau die Verlustfunktion eines Deep Q-Learning-Netzwerks trainiert wird. Ich verwende ein 2-Schicht-Feedforward-Netzwerk mit linearer Ausgangsschicht und relu versteckten Schichten.

  1. Nehmen wir an, ich habe 4 mögliche Aktionen. Somit ist der Ausgang von dem Netzwerk für den aktuellen Zustand ist . Um es konkreter zu machen, nehmen wir an, dassstQ(st)R4Q(st)=[1.3,0.4,4.3,1.5]
  2. Jetzt nehme ich die Aktion at=2 entsprechend dem Wert 4.3 dh die 3. Aktion, und erreiche einen neuen Zustand st+1 .
  3. Als nächstes berechne ich den Vorwärtsdurchlauf mit dem Zustand st+1 und nehme an, ich erhalte die folgenden Werte auf der Ausgangsschicht Q(st+1)=[9.1,2.4,0.1,0.3] . Nehmen wir auch an, die Belohnung r_t = 2rt=2 und γ=1.0 .
  4. Ist der Verlust gegeben durch:

    L=(11.14.3)2

    ODER

    L=14i=03([11.1,11.1,11.1,11.1][1.3,0.4,4.3,1.5])2

    ODER

    L=14i=03([11.1,4.4,2.1,2.3][1.3,0.4,4.3,1.5])2

Vielen Dank, tut mir leid, dass ich das sehr einfach aufschreiben musste ... Ich bin durch die ganze Notation verwirrt. (Ich denke, die richtige Antwort ist die zweite ...)


1
Diese Frage mit dem klaren Beispiel hat mich dazu gebracht, Deep Q Learning besser zu verstehen als jeder andere mittlere Artikel, den ich in der letzten Woche gelesen habe.
Dhruvm

Antworten:


5

Nachdem Sie die Gleichungen noch einige Male überprüft haben. Ich denke, der richtige Verlust ist der folgende:

L=(11.14.3)2

Meine Argumentation ist, dass die Q-Learning-Aktualisierungsregel für den allgemeinen Fall nur den Q-Wert für ein bestimmtes aktualisiert .state,action

Q(s,a)=r+γmaxaQ(s,a)

Diese Gleichung bedeutet, dass die Aktualisierung nur für einen bestimmten ein bestimmtes und für das neuronale Q-Netzwerk erfolgt. Dies bedeutet, dass der Verlust nur für eine bestimmte Ausgabeeinheit berechnet wird, die einer bestimmten .state,actionaction

In dem angegebenen Beispiel ist und das ist .Q(s,a)=4.3targetr+γmaxaQ(s,a)=11.1

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.