Soweit mir bekannt ist, ist es immer noch ein offenes Problem, ein wirklich klares, formales Verständnis dafür zu erhalten, warum / wann wir einen Mangel an Konvergenz haben - oder, schlimmer noch, manchmal die Gefahr einer Divergenz. Es wird typischerweise der "tödlichen Triade" (siehe 11.3 der zweiten Ausgabe von Sutton und Bartos Buch) zugeschrieben, der Kombination von:
- Funktionsnäherung UND
- Bootstrapping (unter Verwendung unserer eigenen Wertschätzungen bei der Berechnung unserer Trainingsziele, wie durch Q Learning durchgeführt), AND
- Off-Policy-Training ( Q Learning ist in der Tat Off-Policy).
Das gibt uns nur eine (möglicherweise nicht erschöpfende) Beschreibung von Fällen, in denen wir eine mangelnde Konvergenz und / oder die Gefahr einer Divergenz haben, sagt uns aber immer noch nicht, warum dies in diesen Fällen der Fall ist.
Johns Antwort liefert bereits die Intuition, dass ein Teil des Problems einfach darin besteht, dass die Verwendung der Funktionsnäherung leicht zu Situationen führen kann, in denen Ihr Funktionsnäherungsgerät nicht leistungsfähig genug ist, um die wahre Q∗ -Funktion darzustellen. Möglicherweise gibt es immer Annäherungsfehler, die unmöglich sind loszuwerden, ohne auf einen anderen Funktionsapproximator umzuschalten.
Persönlich denke ich, dass diese Intuition hilft zu verstehen, warum der Algorithmus die Konvergenz zur optimalen Lösung nicht garantieren kann, aber ich würde dennoch intuitiv erwarten, dass er möglicherweise zu einer "stabilen" Lösung "konvergieren" kann, die die bestmögliche Annäherung darstellt die Einschränkungen, die der gewählten Funktionsdarstellung inhärent sind. In der Tat beobachten wir dies in der Praxis, wenn wir auf ein On-Policy-Training (z. B. Sarsa) umsteigen, zumindest im Fall von linearen Funktionsapproximatoren.
Meine eigene Intuition in Bezug auf diese Frage war im Allgemeinen, dass eine wichtige Quelle des Problems die Verallgemeinerung ist . In der tabellarischen Einstellung haben wir die Einträge Q ( s , a ) für alle ( s , a ) Paare vollständig isoliert . Jedes Mal, wenn wir unsere Schätzung für einen Eintrag aktualisieren, bleiben alle anderen Einträge unverändert (zumindest anfänglich - es kann aufgrund des Bootstrappings in der Aktualisierungsregel einige Auswirkungen auf andere Einträge in zukünftigen Updates geben). Aktualisierungsregeln für Algorithmen wie Q. Learning und Sarsa werden manchmal in die "falsche" Richtung aktualisiert, wenn wir "Pech" haben, aber in Erwartungaktualisieren sie im Allgemeinen in die richtige "Richtung". Intuitiv bedeutet dies, dass wir in der tabellarischen Einstellung erwartungsgemäß langsam und schrittweise Fehler in Einträgen isoliert beheben, ohne möglicherweise andere Einträge zu beschädigen.
Wenn wir bei der Funktionsnäherung unsere Q ( s , a ) -Schätzung für ein ( s , a ) Paar aktualisieren , kann dies möglicherweise auch alle anderen Schätzungen für alle anderen Zustands-Aktions-Paare beeinflussen. Intuitiv bedeutet dies, dass wir nicht mehr die nette Isolation von Einträgen wie in der Tabelleneinstellung haben und das "Beheben" von Fehlern in einem Eintrag das Risiko birgt, anderen Einträgen neue Fehler hinzuzufügen. Wie Johns Antwort würde diese ganze Intuition jedoch auch für On-Policy-Algorithmen gelten, sodass sie immer noch nicht erklärt, was das Besondere an Q. Learning (und anderen Off-Policy-Ansätzen) ist.
maxmax
Q.( s , a )
Q ( s , a ) ← Q ( s , a ) + α [ maxein'Q ( s', ein')−Q(s,a)].
maxa′Q(s′,a′)Q estimates over a -- possibly very long -- trajectory. As already discussed in some of the previous answers, our function approximator has a limited representational capacity, and updates to one state-action pair may affect value estimates for other state-action pairs. This means that, after triggering our update to Q(s,a), our function approximator may no longer be able to simultaneously express the policy that leads to the high returns that our maxa′Q(s′,a′) estimate was based on. The authors of this paper say that the algorithm is "delusional". It performs an update under the assumption that, down the line, it can still obtain large returns, but it may no longer actually be powerful enough to obtain those returns with the new version of the function approximator's parameters.
Finally, another (even more recent) paper that I suspect is relevant to this question is Diagnosing Bottlenecks in Deep Q-learning Algorithms, but unfortunately I have not yet had the time to read it in sufficient detail and adequately summarise it.