Künstliche Intelligenz trpo

Als «trpo» getaggte Fragen

Wie können Richtlinienverläufe bei mehreren fortlaufenden Aktionen angewendet werden?

Trusted Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO) sind zwei innovative Algorithmen für Richtliniengradienten. Wenn Sie eine einzelne kontinuierliche Aktion verwenden, verwenden Sie normalerweise eine Wahrscheinlichkeitsverteilung (z. B. Gauß) für die Verlustfunktion. Die grobe Version ist: L ( θ ) = log( P.( a1) ) A ,L(θ)=log⁡(P(a1))A,L(\theta) = …

11 deep-learning reinforcement-learning trpo