Als «q-learning» getaggte Fragen

1
In welchem ​​Verhältnis stehen Q-Learning-Methoden und Methoden mit politischen Verläufen?
Nach meinem Verständnis sind Q-Learning und Policy Gradients (PG) die beiden wichtigsten Ansätze zur Lösung von RL-Problemen. Während Q-Learning darauf abzielt, die Belohnung einer bestimmten Maßnahme in einem bestimmten Zustand vorherzusagen, prognostizieren Gradienten der Politik die Maßnahme selbst direkt. Beide Ansätze erscheinen mir jedoch identisch, dh die Vorhersage der maximalen …

1
Warum benötigt DQN zwei verschiedene Netzwerke?
Ich habe diese Implementierung von DQN durchlaufen und sehe, dass in den Zeilen 124 und 125 zwei verschiedene Q-Netzwerke initialisiert wurden. Nach meinem Verständnis sagt ein Netzwerk die geeignete Aktion voraus und das zweite Netzwerk sagt die Q-Zielwerte zum Auffinden des Bellman-Fehlers voraus. Warum können wir nicht einfach ein einziges …

2
Warum konvergiert Q-Learning nicht, wenn Funktionsnäherung verwendet wird?
Es wird garantiert, dass der tabellarische Q-Lernalgorithmus die optimale Funktion Q ∗ findet , vorausgesetzt, die folgenden Bedingungen (die Robbins-Monro-Bedingungen ) bezüglich der Lernrate sind erfülltQQQQ∗Q∗Q^* ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty wobei αt(s,a)αt(s,a)\alpha_t(s, a) die Lernrate bedeutet, die verwendet wird, wenn der QQQ Wert aktualisiert …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.