Ist die optimale Politik immer stochastisch (dh eine Karte von Zuständen zu einer Wahrscheinlichkeitsverteilung über Aktionen), wenn die Umgebung auch stochastisch ist?
Nein.
Eine optimale Politik ist im Allgemeinen deterministisch, es sei denn:
Wichtige Statusinformationen fehlen (ein POMDP). Beispiel: In einer Karte, in der der Agent seinen genauen Standort nicht kennen oder sich nicht an frühere Status erinnern darf und der Status, den er erhält, nicht ausreicht, um zwischen Standorten zu unterscheiden. Wenn das Ziel darin besteht, an einen bestimmten Endort zu gelangen, kann die optimale Richtlinie einige zufällige Bewegungen enthalten, um ein Feststecken zu vermeiden. Beachten Sie, dass die Umgebung in diesem Fall deterministisch sein kann (aus der Sicht von jemandem, der den gesamten Zustand sehen kann), aber dennoch dazu führt, dass eine stochastische Politik erforderlich ist, um ihn zu lösen.
Es gibt eine Art Minimax-Spieltheorie-Szenario, in dem eine deterministische Politik von der Umgebung oder einem anderen Agenten bestraft werden kann. Denken Sie an Schere / Papier / Stein oder Gefangenendilemma.
Intuitiv sollte die optimale Richtlinie auch deterministisch sein, wenn die Umgebung deterministisch ist (dh wenn sich der Agent in einem Zustand 𝑠 befindet und Maßnahmen ergreift 𝑎, dann ist der nächste Zustand 𝑠 'immer der gleiche, unabhängig von welchem Zeitschritt) (Das heißt, es sollte eine Karte von Zuständen zu Aktionen sein und nicht zu einer Wahrscheinlichkeitsverteilung über Aktionen).
Das scheint vernünftig, aber Sie können diese Intuition mit jeder Methode weiterentwickeln, die auf einer Wertefunktion basiert:
Wenn Sie einen optimalen Wert Funktion gefunden haben, dann wirkt gierig in Bezug auf es ist die optimale Politik.
Die obige Aussage ist nur eine natürliche Neuaussage der Bellman-Optimalitätsgleichung:
v∗( s ) = maxein∑r , s'p ( r , s'| s,a)(r+γv∗( s') )
Das heißt, die optimalen Werte werden erhalten, wenn immer die Aktion ausgewählt wird, die die Belohnung plus den reduzierten Wert des nächsten Schritts maximiert. Die Operation ist deterministisch (falls erforderlich, können Sie Verbindungen für den Maximalwert deterministisch unterbrechen, z. B. mit einer geordneten Liste von Aktionen).maxein
Daher hat jede Umgebung, die von einem MDP modelliert und durch eine wertbasierte Methode (z. B. Wertiteration, Q-Learning) gelöst werden kann, eine optimale Politik, die deterministisch ist.
In einer solchen Umgebung ist es möglich, dass die optimale Lösung überhaupt nicht stochastisch ist (dh wenn Sie der deterministischen optimalen Richtlinie eine Zufälligkeit hinzufügen, wird die Richtlinie streng schlechter). Wenn es jedoch Bindungen für den Maximalwert für eine oder mehrere Aktionen in einem oder mehreren Zuständen gibt, gibt es mehrere äquivalente optimale und deterministische Richtlinien. Sie können eine stochastische Richtlinie erstellen, die diese in einer beliebigen Kombination mischt, und sie ist auch optimal.