Was bedeutet „stationär“ im Kontext des verstärkenden Lernens?


9

Ich glaube, ich habe die Ausdrücke "stationäre Daten", "stationäre Dynamik" und "stationäre Politik" unter anderem im Zusammenhang mit dem verstärkten Lernen gesehen. Was bedeutet das? Ich denke, stationäre Politik bedeutet, dass die Politik nicht von der Zeit abhängt, sondern nur vom Staat. Aber ist das nicht eine unnötige Unterscheidung? Wenn die Politik von der Zeit und nicht nur vom Staat abhängt, sollte die Zeit genau genommen auch Teil des Staates sein.

Antworten:


4

Eine stationäre Richtlinie ist eine Richtlinie, die sich nicht ändert. Obwohl dies streng genommen ein zeitabhängiges Thema ist, bezieht sich die Unterscheidung beim verstärkten Lernen nicht darauf. Dies bedeutet im Allgemeinen, dass die Richtlinie nicht durch einen Lernalgorithmus aktualisiert wird.

Wenn Sie mit einer stationären Richtlinie für das verstärkte Lernen (RL) arbeiten, liegt dies normalerweise daran, dass Sie versuchen, deren Wertfunktion zu lernen. Viele RL-Techniken - einschließlich Monte Carlo, zeitlicher Unterschied, dynamische Programmierung - können verwendet werden, um eine bestimmte Richtlinie zu bewerten und um nach einer besseren oder optimalen Richtlinie zu suchen.

Stationäre Dynamik bezieht sich auf die Umgebung und ist eine Annahme, dass sich die Regeln der Umgebung im Laufe der Zeit nicht ändern. Die Umgebungsregeln werden häufig als MDP-Modell dargestellt, das aus allen Zustandsübergangswahrscheinlichkeiten und Belohnungsverteilungen besteht. Online arbeitende Verstärkungslernalgorithmen können Richtlinien normalerweise verarbeiten und an instationäre Umgebungen anpassen, vorausgesetzt, die Änderungen treten nicht zu oft auf oder es ist genügend Lern- / Erkundungszeit zwischen radikaleren Änderungen zulässig. Die meisten RL-Algorithmen haben mindestens eine Online-Komponente. Es ist auch wichtig, nicht optimale Aktionen in Umgebungen mit diesem Merkmal weiter zu untersuchen (um festzustellen, wann sie möglicherweise optimal werden).

Stationäre Daten sind kein RL-spezifischer Begriff, sondern beziehen sich auch auf die Notwendigkeit eines Online-Algorithmus oder zumindest auf Pläne, ältere Daten zu verwerfen und vorhandene Modelle im Laufe der Zeit neu zu trainieren. Möglicherweise haben Sie in jeder ML instationäre Daten, einschließlich überwachtem Lernen. Vorhersageprobleme, die mit Daten über Personen und deren Verhalten funktionieren, haben häufig dieses Problem, da sich die Bevölkerungsnormen über Zeiträume von Monaten und Jahren ändern.


Kommentare sind nicht für eine ausführliche Diskussion gedacht. Dieses Gespräch wurde in den Chat verschoben .
nbro

2

Eine stationäre Politik ist diejenige, die nicht von der Zeit abhängt. Dies bedeutet, dass der Agent dieselbe Entscheidung trifft, wenn bestimmte Bedingungen erfüllt sind. Diese stationäre Politik kann probabilistisch sein, was impliziert, dass die Wahrscheinlichkeit, eine Aktion auszuwählen, gleich bleibt. Es kann unterschiedliche Entscheidungen treffen, aber die Wahrscheinlichkeit bleibt gleich.

Eine stationäre Umgebung bezieht sich auf das statische Modell des Systems. Das Modell besteht aus einer Belohnungsfunktion und Übergangswahrscheinlichkeiten. In einer stationären Umgebung bleiben die Belohnungsfunktion und die Übergangswahrscheinlichkeiten konstant oder die Änderungen sind langsam genug, dass der Agent genügend Schulungszeit findet, um die in der Umgebung vorgenommenen Änderungen zu lernen.


1

Sie haben Recht: Eine stationäre Politik ist zeitunabhängig. Es ist im Grunde eine Zuordnung von Zuständen zu Aktionen. Trotz der Zeitpunkt , in dem der Agent den Zustand beobachtet s wird es eine Aktion auswählen ein .


4
Beachten Sie, dass eine stationäre Richtlinie immer noch eine nicht deterministische Richtlinie sein kann, sodass nicht immer dieselbe Aktion ausgewählt werden muss ein gegeben den gleichen Zustand s. Seine Wahrscheinlichkeitπ(ein|s) der Auswahl ein gegeben ssollte im Laufe der Zeit festgelegt bleiben, damit es sich um eine stationäre Politik handelt.
Dennis Soemers

0

Es gibt zwei Arten von Problemen

Stationär und instationär

Stationäre Probleme sind solche, deren Belohnungswert statisch ist, sich nicht ändert, und nicht stationäre Probleme sind solche, deren Belohnungswert sich mit der Zeit ändert

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.