So passen Sie Gewichte mit linearer Funktionsnäherung in Q-Werte an

Beim Verstärkungslernen wird häufig eine lineare Funktionsnäherung verwendet, wenn große Zustandsräume vorhanden sind. (Wenn Nachschlagetabellen nicht mehr durchführbar sind.)

Die Form des Wertes mit linearer Funktionsnäherung ist gegeben durch $Q-$

Q (s, a) = w_{1} f_{1} (s, a) + w_{2} f_{2} (s, a) + \dots,

$Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots,$

Dabei sind die Gewichte und die Merkmale. $w_i$ $f_i$

Die Funktionen werden vom Benutzer vordefiniert. Meine Frage ist, wie sind die Gewichte zugeordnet?

Ich habe einige Vorlesungsfolien auf Lesen / heruntergeladen Lernen mit Funktionsapproximation. Die meisten von ihnen haben Folien zur linearen Regression, die folgen. Da es sich nur um Folien handelt, sind sie in der Regel unvollständig. Ich frage mich, was die Verbindung / Beziehung zwischen den beiden Themen ist. $Q-$

machine-learning feature-selection reinforcement-learning

— cgo
quelle

Die Funktionsnäherung ist im Grunde ein Regressionsproblem (im allgemeinen Sinne, dh im Gegensatz zur Klassifizierung, bei der die Klasse diskret ist), dh man versucht, eine Funktionszuordnung von der Eingabe (in Ihrem Fall $f(s,a)$ ) zu einem reellen Wert zu lernen Ausgabe $Q(s,a)$ . Da wir nicht eine vollständige Tabelle aller Eingabe- / Ausgabewerte haben, sondern gleichzeitig $Q(s,a)$ lernen und schätzen , können die Parameter (hier: die Gewichte $w$ ) nicht direkt aus den Daten berechnet werden. Ein üblicher Ansatz ist hier die Verwendung des Gradientenabfalls .

Hier ist der allgemeine Algorithmus zum Lernen von $Q(s,a)$ mit Value Function Approximation

INIT - Parameter-Vektor $w=(w_1,w_2,....,w_n)$ zufällig ( zum Beispiel in [0,1])
Für jede Folge:
1. $s\leftarrow$ Anfangszustand der Episode
2. $a\leftarrow$ Aktion, die von der Richtlinie $\pi$ (Empfehlung: $\epsilon$ -greedy)
3. Ergreifen Sie die Aktion $a$ , beobachten Sie die Belohnung $r$ und den nächsten Zustand $s'$
4. $w\leftarrow w+ \alpha(r+\gamma * max_{a'}Q(s',a') - Q(s,a)) \vec\nabla_wQ(s,a)$
5. $s\leftarrow s'$
Wiederholen Sie 2-5, bis $s$ terminiert ist

wo ...

$\alpha\in[0,1]$ ist die Lernrate
$\gamma\in[0,1]$
$max_{a'}Q(s',a')$ $a'$ $s'$ $Q(s',a)$
$\vec\nabla_wQ(s,a)$ $Q(s,a)$ $w$ $(f_1(s,a),...,f_n(s,a))$

Die Parameter- / Gewichtsaktualisierung (4. Schritt) kann folgendermaßen gelesen werden:

$(r+\gamma * max_a'Q(s',a')) - (Q(s,a))$ $Q(s,a)$ $Q(s,a)$ $r$ $\gamma * max_a'Q(s',a')$
$\vec\nabla_wQ(s,a)$ $\alpha$

Hauptquelle:

$Q(s,a)$ $V(s)$ $e$

Weitere Referenzen

$Q(s,a)$
Ein kurzer Überblick über die Approximation parametrischer Wertfunktionen von Geist und Pietquin. Sieht vielversprechend aus, aber ich habe es noch nicht gelesen.

— steffen
quelle

Defekter Link für Barto & Sutton! Jetzt hier -> unvollständigideas.net

— book/

Ist nicht der Gradient von Q (s, a) in Bezug auf den Spaltenvektor, in dem jedes Element fi (s, a) ist, anstatt die Summe aller fi zu sein, wie Sie sagten? Das Ziel ist, dass jedes Gewicht entsprechend dem Wert des Merkmals geändert wird, mit dem es multipliziert wird.

— Miguel Saraiva

@ MiguelSaraiva Ja, es wurde behoben. Vielen Dank.

— steffen