Trusted Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO) sind zwei innovative Algorithmen für Richtliniengradienten.
Wenn Sie eine einzelne kontinuierliche Aktion verwenden, verwenden Sie normalerweise eine Wahrscheinlichkeitsverteilung (z. B. Gauß) für die Verlustfunktion. Die grobe Version ist:
Wenn der Vorteil von Belohnungen ist, ist durch und , die wie in der Pendelumgebung aus einem neuronalen Netzwerk stammen: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c /hw4/main.py .
Das Problem ist, dass ich kein Papier über 2+ kontinuierliche Aktionen mit Richtliniengradienten finden kann (keine akteurkritischen Methoden, die einen anderen Ansatz verwenden, indem sie den Gradienten von der Q-Funktion übertragen).
Wissen Sie, wie Sie dies mit TRPO für zwei kontinuierliche Aktionen in der LunarLander-Umgebung tun können ?
Ist der folgende Ansatz für die Funktion zum Verlust von Richtliniengradienten korrekt?