Beim verstärkten Lernen haben wir eine Belohnungsfunktion, die den Agenten darüber informiert, wie gut seine aktuellen Aktionen und Zustände sind. In einigen allgemeinen Einstellungen ist die Belohnungsfunktion eine Funktion von drei Variablen:
- Aktueller Zustand
- Aktuelle Aktion im aktuellen Zustand
- Nächster Zustand
Es sieht also ungefähr so aus:
Was meine Frage ist (was wahrscheinlich mein Missverständnis ist), normalerweise entscheidet die Person, die das Verstärkungslernen einsetzt, was die Belohnung ist. Beispielsweise werden 1000 Punkte für das Erreichen des Ziels oder -1000 Punkte für den Absturz des autonomen Roboters vergeben. In diesen Szenarien ist mir nicht klar, warum wir Proben benötigen würden, um zu lernen, dass R. R a priori spezifiziert ist, und dann verwenden wir unseren Agenten. Recht? Ich weiß jedoch, dass ich falsch liege, weil er in Andrew Ngs Notizen sagt:
Wo er sagt, dass wir die Belohnungsfunktion nicht explizit kennen. Das kommt mir bizarr vor. Ich weiß, dass ich falsch liege, und ich würde mich freuen, wenn mir jemand erklären könnte, in welchen Szenarien wir R tatsächlich aus Stichproben lernen müssen.
(Offensichtlich müssen die Übergangswahrscheinlichkeiten gelernt werden, da man nicht weiß, wie die Umgebung unseren Agenten a priori bewegen wird).