1
Wie können Richtlinienverläufe bei mehreren fortlaufenden Aktionen angewendet werden?
Trusted Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO) sind zwei innovative Algorithmen für Richtliniengradienten. Wenn Sie eine einzelne kontinuierliche Aktion verwenden, verwenden Sie normalerweise eine Wahrscheinlichkeitsverteilung (z. B. Gauß) für die Verlustfunktion. Die grobe Version ist: L ( θ ) = log( P.( a1) ) A ,L(θ)=log(P(a1))A,L(\theta) = …