Lernen der Struktur einer hierarchischen Verstärkungsaufgabe

Ich habe hierachiale Verstärkungslernprobleme untersucht, und während viele Artikel Algorithmen zum Erlernen einer Richtlinie vorschlagen, scheinen alle davon auszugehen, dass sie im Voraus eine Diagrammstruktur kennen, die die Hierarchie der Aktionen in der Domäne beschreibt. Beispielsweise beschreibt die MAXQ-Methode für das Lernen der hierarchischen Verstärkung von Dietterich ein Diagramm mit Aktionen und Unteraufgaben für eine einfache Taxi-Domäne, jedoch nicht, wie dieses Diagramm entdeckt wurde. Wie würden Sie die Hierarchie dieses Diagramms und nicht nur die Richtlinie lernen?

Mit anderen Worten, am Beispiel des Papiers, wenn ein Taxi ziellos herumfahren würde, mit wenig Vorkenntnissen der Welt und nur den primitiven Aktionen zum Bewegen nach links / Bewegen nach rechts / usw., wie würde es Aktionen auf höherer Ebene lernen, wie z Go-Pick-Up-Passagier? Wenn ich das Papier richtig verstehe (und vielleicht auch nicht), wird vorgeschlagen, wie die Richtlinie für diese Aktionen auf hoher Ebene aktualisiert werden soll, nicht jedoch, wie sie zunächst gebildet werden.

machine-learning

— Cerin
quelle

Nach diesem Papier

Nach dem aktuellen Stand der Technik verwendet der Entwickler eines RL-Systems normalerweise Vorkenntnisse über die Aufgabe, um dem Satz von primitiven Aktionen, die dem Agenten zur Verfügung stehen, einen bestimmten Satz von Optionen hinzuzufügen.

Siehe auch Abschnitt 6.2 Lernaufgabenhierarchien im selben Dokument.

Die erste Idee, die mir in den Sinn kommt, ist, dass Sie, wenn Sie keine Aufgabenhierarchien kennen, mit dem Lernen ohne Hierachialverstärkung beginnen und versuchen sollten, die Struktur danach oder während des Lernens zu entdecken, dh Sie versuchen, Ihr Modell zu verallgemeinern. Für mich ähnelt diese Aufgabe der Bayes'schen Modellzusammenführungstechnik für HMM (siehe zum Beispiel diese Arbeit ).

— Alexey Kalmykov
quelle