Als «stochastic-policy» getaggte Fragen

2
Ist eine Politik beim verstärkten Lernen immer deterministisch?
Ist eine Politik beim verstärkten Lernen immer deterministisch oder ist es eine Wahrscheinlichkeitsverteilung über Aktionen (aus denen wir eine Stichprobe ziehen)? Wenn die Richtlinie deterministisch ist, warum nicht die Wertfunktion, die in einem bestimmten Zustand für eine bestimmte Richtlinie wie folgt definiert istππ\pi Vπ(s)=E[∑t>0γtrt|s0=s,π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, \pi\right] …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.