- Ist RL unter solchen Bedingungen der richtige Rahmen?
Es sieht möglich aus , aber vielleicht würden einige kleine Details, die Sie nicht angegeben haben, andere Ansätze praktikabler machen. Wenn beispielsweise die Benachrichtigungsereignisse als mehr oder weniger unabhängig behandelt werden können, ist ein überwachter Lernansatz möglicherweise besser oder zumindest pragmatischer.
In der Praxis ist nicht 100% klar, wie Ihr Status, Ihre Zeitschritte und Ihre Aktionsoptionen aussehen werden. Diese müssen genau definiert sein, damit RL-Ansätze funktionieren. Darüber hinaus möchten Sie in der Lage sein, Zustände zu konstruieren, die die Markov-Eigenschaft haben (oder fast haben) - im Wesentlichen, dass alles, was über die erwartete Belohnung und den nächsten Zustand bekannt und nicht zufällig ist, vom Staat abgedeckt wird.
- Wie können wir in solchen Situationen offline die optimale Richtlinie lernen?
Sie möchten sowohl einen Offline-Lerner (Daten sind historisch, nicht "live") als auch einen Off-Policy-Lerner (Daten werden von einer anderen Richtlinie als der zu bewertenden generiert). Außerdem vermute ich, dass Sie die Verhaltensrichtlinien, die Ihre Daten generiert haben, nicht kennen, sodass Sie keine Wichtigkeitsstichproben verwenden können .
λ
Es ist nicht garantiert, dass dies funktioniert, da das Lernen außerhalb der Richtlinien weniger stabil ist als das Lernen innerhalb der Richtlinien und möglicherweise mehrere Versuche erfordert, Hyperparameter zu erhalten, die funktionieren. Sie benötigen eine gute Anzahl von Beispielen, die optimale oder nahezu optimale Auswahlmöglichkeiten für jeden Schritt abdecken (nicht unbedingt in denselben Episoden), da Q-Learning auf Bootstrapping beruht - im Wesentlichen das Kopieren von Wertschätzungen von Aktionsoptionen rückwärts in frühere Zeitschritte, um Einfluss zu nehmen In diesem früheren Abschnitt zieht es der Agent vor, Maßnahmen zu ergreifen, auf die er zusteuert.
Wenn Ihr Status / Aktionsbereich klein genug ist (wenn Sie die Status und Aktionen vollständig auflisten), bevorzugen Sie möglicherweise die tabellarische Form des Q-Learning, da dies einige Konvergenzgarantien bietet. Bei den meisten praktischen Problemen ist dies jedoch nicht wirklich möglich. Daher sollten Sie Optionen für die Verwendung von Approximationsfunktionen prüfen.
... und wie bewerten wir das gleiche?
Wenn Sie aus Ihrem Q-Learning (durch Inspektion) realistisch aussehende konvergierte Aktionswerte erhalten können, gibt es nur zwei vernünftige Möglichkeiten, die Leistung zu bewerten:
Indem Sie den Agenten in einer Simulation ausführen (und dort möglicherweise weiter verfeinern), erwarte ich nicht, dass dies für Ihr Szenario machbar ist, da Ihre Umgebung Entscheidungen Ihrer Kunden enthält. Dies ist jedoch ein gutes Sprungbrett für einige Szenarien, beispielsweise wenn die Umgebung von der grundlegenden realen Physik dominiert wird.
Durch Ausführen des Agenten für real, möglicherweise für einen Teil der Arbeitslast, und Vergleichen der tatsächlichen Belohnungen mit den vorhergesagten über genügend Zeit, um statistische Sicherheit herzustellen.
Sie können den Agenten auch zusammen mit einem vorhandenen Bediener trocken laufen lassen und Feedback erhalten, ob seine Vorschläge für Maßnahmen (und Vorhersagen der Belohnung) realistisch erscheinen. Dies ist ein subjektives Feedback, und es ist schwierig, die Leistung numerisch zu bewerten, wenn die Aktionen verwendet werden können oder nicht. Es würde Ihnen jedoch ein wenig QS geben.