In der Robotik wird die Verstärkunglerntechnik verwendet, um das Steuermuster für einen Roboter zu finden. Leider sind die meisten Methoden mit politischem Gradienten statistisch voreingenommen, was den Roboter in eine unsichere Situation bringen könnte, siehe Seite 2 in Jan Peters und Stefan Schaal: Verstärktes Erlernen motorischer Fähigkeiten mit politischen Gradienten, 2008
Mit motorischem primitivem Lernen ist es möglich, das Problem zu überwinden, da die Optimierung von Richtliniengradientenparametern die Lernschritte in das Ziel lenkt.
Zitat: „Wenn die Gradientenschätzung unvoreingenommen ist und die Lernraten die Summe (a) = 0 erfüllen, konvergiert der Lernprozess garantiert auf mindestens ein lokales Minimum [...]. Daher müssen wir den Gradienten der Richtlinie nur anhand der generierten Daten schätzen während der Ausführung einer Aufgabe. ”(Seite 4 desselben Papiers)
In den Hausaufgaben für die Berkeley RL-Klasse Problem 1 werden Sie aufgefordert zu zeigen, dass der Richtliniengradient immer noch unverzerrt ist, wenn die subtrahierte Basislinie eine Funktion des Zustands zum Zeitpunkt t ist.
Ich kämpfe mich durch den ersten Schritt eines solchen Beweises. Kann mich jemand in die richtige Richtung weisen? Mein erster Gedanke war, irgendwie das Gesetz der totalen Erwartung zu verwenden, um die Erwartung von b (st) von T abhängig zu machen, aber ich bin mir nicht sicher. Danke im Voraus :)