Ist eine Politik beim verstärkten Lernen immer deterministisch oder ist es eine Wahrscheinlichkeitsverteilung über Aktionen (aus denen wir eine Stichprobe ziehen)? Wenn die Richtlinie deterministisch ist, warum nicht die Wertfunktion, die in einem bestimmten Zustand für eine bestimmte Richtlinie wie folgt definiert ist
eine Punktausgabe?
In der obigen Definition nehmen wir eine Erwartung an. Was ist diese Erwartung vorbei?
Kann eine Richtlinie zu unterschiedlichen Routen führen?