Eine stationäre Richtlinie ist eine Richtlinie, die sich nicht ändert. Obwohl dies streng genommen ein zeitabhängiges Thema ist, bezieht sich die Unterscheidung beim verstärkten Lernen nicht darauf. Dies bedeutet im Allgemeinen, dass die Richtlinie nicht durch einen Lernalgorithmus aktualisiert wird.
Wenn Sie mit einer stationären Richtlinie für das verstärkte Lernen (RL) arbeiten, liegt dies normalerweise daran, dass Sie versuchen, deren Wertfunktion zu lernen. Viele RL-Techniken - einschließlich Monte Carlo, zeitlicher Unterschied, dynamische Programmierung - können verwendet werden, um eine bestimmte Richtlinie zu bewerten und um nach einer besseren oder optimalen Richtlinie zu suchen.
Stationäre Dynamik bezieht sich auf die Umgebung und ist eine Annahme, dass sich die Regeln der Umgebung im Laufe der Zeit nicht ändern. Die Umgebungsregeln werden häufig als MDP-Modell dargestellt, das aus allen Zustandsübergangswahrscheinlichkeiten und Belohnungsverteilungen besteht. Online arbeitende Verstärkungslernalgorithmen können Richtlinien normalerweise verarbeiten und an instationäre Umgebungen anpassen, vorausgesetzt, die Änderungen treten nicht zu oft auf oder es ist genügend Lern- / Erkundungszeit zwischen radikaleren Änderungen zulässig. Die meisten RL-Algorithmen haben mindestens eine Online-Komponente. Es ist auch wichtig, nicht optimale Aktionen in Umgebungen mit diesem Merkmal weiter zu untersuchen (um festzustellen, wann sie möglicherweise optimal werden).
Stationäre Daten sind kein RL-spezifischer Begriff, sondern beziehen sich auch auf die Notwendigkeit eines Online-Algorithmus oder zumindest auf Pläne, ältere Daten zu verwerfen und vorhandene Modelle im Laufe der Zeit neu zu trainieren. Möglicherweise haben Sie in jeder ML instationäre Daten, einschließlich überwachtem Lernen. Vorhersageprobleme, die mit Daten über Personen und deren Verhalten funktionieren, haben häufig dieses Problem, da sich die Bevölkerungsnormen über Zeiträume von Monaten und Jahren ändern.