Gibt es Methoden für Gradienten außerhalb der Richtlinien?

Ich weiß, dass Richtliniengradientenmethoden selbst die Richtlinienfunktion für Stichproben-Rollouts verwenden. Aber können wir nicht einfach ein Modell für die Probenahme aus der Umgebung haben? Wenn ja, habe ich das noch nie gesehen.

reinforcement-learning

— Echo
quelle

Absolut, es ist ein wirklich interessantes Problem. Hier ist ein Artikel , in dem der Kritiker der politischen Akteure aufgeführt ist . Dies ist wichtig, da diese Methode auch kontinuierliche Aktionen unterstützen kann.

Die allgemeine Idee von Algorithmen außerhalb der Richtlinie besteht darin, die von einer Verhaltensrichtlinie (die tatsächlich in der Welt handelt) ausgeführten Aktionen mit den Aktionen zu vergleichen, die die Zielrichtlinie (die Richtlinie, die wir lernen möchten) ausgewählt hätte. Mit diesem Vergleich können wir ein Verhältnis bestimmen ( $0 \leq \rho \leq 1$ ), die die Aktualisierung der Zielrichtlinie anhand der Wahrscheinlichkeit skalieren kann, mit der die Zielrichtlinie diese Aktion ausführt. Ein höheres $\rho$ Je ähnlicher die beiden Richtlinien sind, desto größer ist die Größe der Lernaktualisierung für die Zielrichtlinie für diesen Schritt. EIN $\rho$ von $0$ und das Update wird ignoriert.

— Jaden Travnik
quelle