Als «trpo» getaggte Fragen

1
Wie können Richtlinienverläufe bei mehreren fortlaufenden Aktionen angewendet werden?
Trusted Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO) sind zwei innovative Algorithmen für Richtliniengradienten. Wenn Sie eine einzelne kontinuierliche Aktion verwenden, verwenden Sie normalerweise eine Wahrscheinlichkeitsverteilung (z. B. Gauß) für die Verlustfunktion. Die grobe Version ist: L ( θ ) = log( P.( a1) ) A ,L(θ)=log⁡(P(a1))A,L(\theta) = …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.