So passen Sie Gewichte mit linearer Funktionsnäherung in Q-Werte an


12

Beim Verstärkungslernen wird häufig eine lineare Funktionsnäherung verwendet, wenn große Zustandsräume vorhanden sind. (Wenn Nachschlagetabellen nicht mehr durchführbar sind.)

Die Form des Wertes mit linearer Funktionsnäherung ist gegeben durchQ

Q(s,a)=w1f1(s,a)+w2f2(s,a)+,

Dabei sind die Gewichte und f i die Merkmale.wifi

Die Funktionen werden vom Benutzer vordefiniert. Meine Frage ist, wie sind die Gewichte zugeordnet?

Ich habe einige Vorlesungsfolien auf Lesen / heruntergeladen Lernen mit Funktionsapproximation. Die meisten von ihnen haben Folien zur linearen Regression, die folgen. Da es sich nur um Folien handelt, sind sie in der Regel unvollständig. Ich frage mich, was die Verbindung / Beziehung zwischen den beiden Themen ist.Q

Antworten:


11

Die Funktionsnäherung ist im Grunde ein Regressionsproblem (im allgemeinen Sinne, dh im Gegensatz zur Klassifizierung, bei der die Klasse diskret ist), dh man versucht, eine Funktionszuordnung von der Eingabe (in Ihrem Fall f(s,a) ) zu einem reellen Wert zu lernen Ausgabe Q(s,a) . Da wir nicht eine vollständige Tabelle aller Eingabe- / Ausgabewerte haben, sondern gleichzeitig Q(s,a) lernen und schätzen , können die Parameter (hier: die Gewichte w ) nicht direkt aus den Daten berechnet werden. Ein üblicher Ansatz ist hier die Verwendung des Gradientenabfalls .

Hier ist der allgemeine Algorithmus zum Lernen von Q(s,a) mit Value Function Approximation

  • INIT - Parameter-Vektor w=(w1,w2,....,wn) zufällig ( zum Beispiel in [0,1])
  • Für jede Folge:

    1. s Anfangszustand der Episode
    2. a Aktion, die von der Richtlinieπ (Empfehlung:ϵ -greedy)
    3. Ergreifen Sie die Aktion a , beobachten Sie die Belohnung r und den nächsten Zustand s
    4. ww+α(r+γmaxaQ(s,a)Q(s,a))wQ(s,a)
    5. ss

    Wiederholen Sie 2-5, bis s terminiert ist

wo ...

  • α[0,1] ist die Lernrate
  • γ[0,1]
  • maxaQ(s,a)asQ(s,a)
  • wQ(s,a)Q(s,a)w(f1(s,a),...,fn(s,a))

Die Parameter- / Gewichtsaktualisierung (4. Schritt) kann folgendermaßen gelesen werden:

  • (r+γmaxaQ(s,a))(Q(s,a))Q(s,a)Q(s,a)r γmaxaQ(s,a)
  • wQ(s,a)α

Hauptquelle:

Q(s,a)V(s)e

Weitere Referenzen


2
Defekter Link für Barto & Sutton! Jetzt hier -> unvollständigideas.net
book/

1
Ist nicht der Gradient von Q (s, a) in Bezug auf den Spaltenvektor, in dem jedes Element fi (s, a) ist, anstatt die Summe aller fi zu sein, wie Sie sagten? Das Ziel ist, dass jedes Gewicht entsprechend dem Wert des Merkmals geändert wird, mit dem es multipliziert wird.
Miguel Saraiva

@ MiguelSaraiva Ja, es wurde behoben. Vielen Dank.
steffen
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.