Ich las Andrew Ngs Vorlesungsunterlagen über das Lernen der Verstärkung und versuchte zu verstehen, warum die Richtlinieniteration zur optimalen Wertfunktion und zur optimalen Richtlinie konvergierte .
Die Iteration der Rückrufrichtlinie lautet:
Warum führt ein Greedy-Algorithmus zu einer optimalen Richtlinie und einer optimalen Wertfunktion? (Ich weiß, dass gierige Algorithmen dies nicht immer garantieren oder in lokalen Optima stecken bleiben könnten, deshalb wollte ich nur einen Beweis für die Optimalität des Algorithmus sehen).
Außerdem scheint mir die Iteration von Richtlinien etwas Analoges zu Clustering oder Gradientenabstieg zu sein. Zum Clustering, weil wir mit der aktuellen Einstellung der Parameter optimieren. Ähnlich wie beim Gradientenabstieg, da nur ein Wert ausgewählt wird, der die Funktion zu erhöhen scheint. Diese beiden Methoden konvergieren nicht immer zu optimalen Maxima, und ich habe versucht zu verstehen, wie sich dieser Algorithmus von den zuvor erwähnten unterscheidet.
Das sind meine bisherigen Gedanken:
Angenommen, wir beginnen mit einer Richtlinie , und nach dem ersten Schritt haben wir für diese feste Richtlinie Folgendes:
Wobei V ^ {(1)} die Wertfunktion für die erste Iteration ist. Dann wählen wir nach dem zweiten Schritt eine neue Richtlinie , um den Wert von zu erhöhen . Wenn wir nun mit der neuen Richtlinie den zweiten Schritt des Algorithmus ausführen, gilt die folgende Ungleichung:
Da wir im zweiten Schritt wählen , um die Wertfunktion im vorherigen Schritt zu erhöhen (dh um zu verbessern . Bisher ist klar, dass die Auswahl von nur V ^ {(1)} erhöhen kann. denn so wählen wir . Meine Verwirrung tritt jedoch im Wiederholungsschritt auf, denn sobald wir wiederholen und zu Schritt 1 zurückkehren, ändern wir die Dinge tatsächlich vollständig, weil wir für die neue Richtlinie neu berechnen . Welches gibt:
aber es ist NICHT:
Dies scheint ein Problem zu sein, da ausgewählt wurde, um zu verbessern , und nicht dieses neue . Grundsätzlich besteht das Problem darin, dass garantiert, dass verbessert wird, indem stattdessen wird von wenn die . Aber im Wiederholungsschritt ändern wir in , aber ich sehe nicht, wie dies garantiert, dass sich die Wertfunktion bei jeder Wiederholung monoton verbessert, da berechnet wurde, um die zu verbessern, wenn Die Wertfunktionen bleiben bei V π 1, aber Schritt 1 ändert in (was schlecht ist, weil I nur die vorherige verbessert hat, die wir hatten).