Ich habe hierachiale Verstärkungslernprobleme untersucht, und während viele Artikel Algorithmen zum Erlernen einer Richtlinie vorschlagen, scheinen alle davon auszugehen, dass sie im Voraus eine Diagrammstruktur kennen, die die Hierarchie der Aktionen in der Domäne beschreibt. Beispielsweise beschreibt die MAXQ-Methode für das Lernen der hierarchischen Verstärkung von Dietterich ein Diagramm mit Aktionen und Unteraufgaben für eine einfache Taxi-Domäne, jedoch nicht, wie dieses Diagramm entdeckt wurde. Wie würden Sie die Hierarchie dieses Diagramms und nicht nur die Richtlinie lernen?
Mit anderen Worten, am Beispiel des Papiers, wenn ein Taxi ziellos herumfahren würde, mit wenig Vorkenntnissen der Welt und nur den primitiven Aktionen zum Bewegen nach links / Bewegen nach rechts / usw., wie würde es Aktionen auf höherer Ebene lernen, wie z Go-Pick-Up-Passagier? Wenn ich das Papier richtig verstehe (und vielleicht auch nicht), wird vorgeschlagen, wie die Richtlinie für diese Aktionen auf hoher Ebene aktualisiert werden soll, nicht jedoch, wie sie zunächst gebildet werden.