1
Warum benötigt DQN zwei verschiedene Netzwerke?
Ich habe diese Implementierung von DQN durchlaufen und sehe, dass in den Zeilen 124 und 125 zwei verschiedene Q-Netzwerke initialisiert wurden. Nach meinem Verständnis sagt ein Netzwerk die geeignete Aktion voraus und das zweite Netzwerk sagt die Q-Zielwerte zum Auffinden des Bellman-Fehlers voraus. Warum können wir nicht einfach ein einziges …