Frage 1: Gibt es gemeinsame oder akzeptierte Methoden für den Umgang mit instationären Umgebungen beim Reinforcement-Lernen im Allgemeinen?
α
Dies behebt jedoch die längerfristige Nichtstationarität, wie das Problem, das sich zwischen Episoden ändert, oder über einen noch längeren Zeitraum. Ihre Beschreibung sieht eher so aus, als ob Sie die Belohnungsstruktur basierend auf den vom Agenten ergriffenen Maßnahmen innerhalb eines kurzen Zeitraums ändern möchten. Diese dynamische Reaktion auf Aktionen wird besser als ein anderes komplexeres MDP dargestellt, nicht als "Nichtstationarität" innerhalb eines einfacheren MDP.
Ein Agent kann keine Änderungen an der Umgebung erfahren, die er noch nicht abgetastet hat. Eine Änderung der Belohnungsstruktur hindert den Agenten daher nicht daran, in zuvor besuchte Zustände zurückzukehren. Sofern Sie im Agenten nicht so etwas wie eine RNN verwenden, hat der Agent keine "Erinnerung" an das, was zuvor in der Episode passiert ist, außer an das, was im aktuellen Status dargestellt ist (die Verwendung einer RNN macht möglicherweise die verborgene Schicht des RNN-Teils aus des Staates). Wenn Sie in mehreren Episoden einen tabellarischen Q-Learning-Agenten verwenden, erfährt der Agent einfach, dass bestimmte Zustände einen niedrigen Wert haben. Er kann nicht feststellen, dass zweite oder dritte Besuche des Zustands diesen Effekt verursachen, da er keinen hat Weg, um dieses Wissen darzustellen. Es wird nicht in der Lage sein, sich schnell genug an die Änderung anzupassen, um online und in der Mitte der Episode zu lernen.
F2: In meiner Gridworld ändert sich die Belohnungsfunktion, wenn ein Staat besucht wird. Ich möchte nur, dass mein Agent lernt: "Gehen Sie nicht zurück, es sei denn, Sie müssen es wirklich". Dies macht die Umgebung jedoch instationär.
Wenn das alles ist, was der Agent lernen muss, kann dies möglicherweise durch eine geeignete Belohnungsstruktur gefördert werden. Bevor Sie dies tun können, müssen Sie sich selbst verstehen, was "wirklich muss" bedeutet und wie eng das logisch sein muss. Sie können jedoch in Ordnung sein, indem Sie eine Strafe für den Besuch eines Standorts zuweisen, den der Agent bereits oder kürzlich besucht hat.
Kann / sollte diese sehr einfache Regel in das MDP-Modell aufgenommen werden und wie?
Ja, Sie sollten dem Bundesstaat Informationen zu besuchten Orten hinzufügen. Dies macht Ihr Zustandsmodell sofort komplexer als eine einfache Gitterwelt und erhöht die Dimensionalität des Problems, ist jedoch unvermeidbar. Die meisten Probleme der realen Welt wachsen sehr schnell aus den Spielzeugbeispielen heraus, die zur Vermittlung von RL-Konzepten bereitgestellt werden.
Eine Alternative besteht darin, das Problem als partiell beobachtbaren Markov-Entscheidungsprozess (POMDP) zu definieren . In diesem Fall würde der "wahre" Zustand immer noch den gesamten notwendigen Verlauf enthalten, um die Belohnungen zu berechnen (und da dies ein Spielzeugproblem auf einem Computer ist, müssten Sie es immer noch irgendwie darstellen), aber der Agent kann versuchen, von eingeschränkt zu lernen Kenntnis des Staates, genau das, was Sie beobachten lassen. Im Allgemeinen ist dies ein viel schwierigerer Ansatz als die Erweiterung der staatlichen Vertretung, und ich würde ihn hier nicht empfehlen. Wenn Sie die Idee jedoch interessant finden, können Sie Ihr Problem verwenden, um POMDPs zu untersuchen. In diesem kürzlich erschienenen Artikel (vom Deep Mind-Team von Google, 2015) werden zwei RL-Algorithmen in Kombination mit RNNs zur Lösung von POMDPs untersucht.
F3: Ich habe mich mit Q-Learning mit Erfahrungswiedergabe als Lösung für den Umgang mit instationären Umgebungen befasst, da es aufeinanderfolgende Updates dekorreliert. Ist dies die richtige Anwendung der Methode oder geht es eher darum, das Lernen dateneffizienter zu gestalten?
Erfahrungswiedergabe hilft in instationären Umgebungen nicht. In der Tat könnte es die Leistung in ihnen verschlechtern. Wie bereits erwähnt, geht es bei Ihrem Problem jedoch nicht wirklich um eine instationäre Umgebung, sondern um die Behandlung komplexerer Zustandsdynamiken.
648×8264
Mit einem Funktionsschätzer ist die Wiedergabe von Erfahrungen sehr nützlich, da der Lernprozess ohne ihn wahrscheinlich instabil ist. Der jüngste DQN-Ansatz zum Spielen von Atari-Spielen verwendet aus diesem Grund die Erfahrungswiedergabe.