Gibt es Methoden für Gradienten außerhalb der Richtlinien?
Ich weiß, dass Richtliniengradientenmethoden selbst die Richtlinienfunktion für Stichproben-Rollouts verwenden. Aber können wir nicht einfach ein Modell für die Probenahme aus der Umgebung haben? Wenn ja, habe ich das noch nie gesehen.