Ich denke darüber nach, einen Roboter mit Linienverfolgung unter Verwendung von Algorithmen zum Lernen der Verstärkung zu programmieren. Die Frage, über die ich nachdenke, ist, wie ich den Algorithmus dazu bringen kann, das Navigieren durch einen beliebigen Pfad zu lernen.
Nachdem ich das Sutton & Barto-Buch zum Erlernen von Übungen befolgt hatte, löste ich ein Übungsproblem, das eine Rennstrecke betraf, auf der der Agent lernte, nicht von der Strecke abzukommen und die Geschwindigkeit zu regulieren. Dieses Übungsproblem brachte den Agenten jedoch dazu, zu lernen, wie man auf der Strecke navigiert, auf der er trainiert hat.
Liegt es im Bereich des Bestärkungslernens, einen Roboter zum Navigieren auf beliebigen Pfaden zu bewegen? Muss der Agent unbedingt eine Karte der Rennstrecke oder des Rennwegs haben? Welche Parameter könnte ich möglicherweise für meinen Zustandsraum verwenden?