Als «deep-rl» getaggte Fragen

2
Warum konvergiert Q-Learning nicht, wenn Funktionsnäherung verwendet wird?
Es wird garantiert, dass der tabellarische Q-Lernalgorithmus die optimale Funktion Q ∗ findet , vorausgesetzt, die folgenden Bedingungen (die Robbins-Monro-Bedingungen ) bezüglich der Lernrate sind erfülltQQQQ∗Q∗Q^* ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty wobei αt(s,a)αt(s,a)\alpha_t(s, a) die Lernrate bedeutet, die verwendet wird, wenn der QQQ Wert aktualisiert …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.