Warum gibt es beim Q-Learning (Bestärkungslernen) keine Übergangswahrscheinlichkeit?


8

Unser Ziel beim Bestärkungslernen ist es, die Zustandswertfunktion oder die Aktionswertfunktion zu optimieren, die wie folgt definiert sind:

V.sπ=p(s'|s,π(s))[r(s'|s,π(s))+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s]]

Q.π(s,ein)=p(s'|s,s)[r(s'|s,ein)+γV.π(s')]]=E.π[r(s'|s,ein)+γV.π(s')|s0=s,ein0=ein]]

Wenn wir jedoch die Q-Learning-Methode verwenden, um die optimale Strategie zu erhalten, sieht die Aktualisierungsmethode wie folgt aus:

Q.(S.,EIN) Q.(S.,EIN)+α[R.+γmeinxein(Q.(s',ein))- -Q.(S.,EIN)]]

Meine Frage ist:

warum gibt es beim Q-Learning keine Übergangswahrscheinlichkeit . Bedeutet das, dass wir dieses bei der Modellierung von MDP nicht benötigen ?p(s'|s,ein)p

Antworten:


6

Algorithmen, die die Zustandsübergangswahrscheinlichkeitsfunktion nicht lernen, werden als modellfrei bezeichnet . Eines der Hauptprobleme bei modellbasierten Algorithmen besteht darin, dass es häufig viele Zustände gibt und ein naives Modell in der Anzahl der Zustände quadratisch ist. Das stellt einen enormen Datenbedarf.

Q-Learning ist modellfrei. Es lernt keine Zustandsübergangswahrscheinlichkeitsfunktion.


1
In MDP gibt es jedoch immer eine Wahrscheinlichkeit. Wenn es keine Übergangswahrscheinlichkeit gibt, bedeutet dies, dass dies ein Widerspruch zur Grundannahme im Reinforcement Learning ist, da RL davon ausgeht, dass der Prozess Markov ist.
Hokies

3
@FzLbMj Natürlich existieren die Übergangswahrscheinlichkeiten irgendwo. Der Punkt ist - wie gesagt -, dass sie nicht gelernt werden .
Neil G

1
@nbro Modellbasiert bedeutet, die Dynamik der Umgebung zu lernen. Hier ist ein Modell, das das macht: Kuvayev, D. und Richard S. Sutton. Modellbasiertes Bestärkungslernen. Technik. rept. Universität von Massachusetts, Fakultät für Informatik, 1997. Als Referenz können Sie Google Scholar verwenden, wenn Sie etwas nicht wissen.
Neil G

1
Ich habe Ihnen gerade ein Papier geschickt, das Sie lesen können und in dem ein Algorithmus die Übergangswahrscheinlichkeiten lernt. Siehe Abschnitt 5.
Neil G

2
@nbro Wir sind uns offensichtlich nicht einig über Definitionen. Wenn Sie also überzeugen möchten, unterstützen Sie Ihre Behauptung bitte mit einem Verweis.
Neil G

2

Aus Gründen der Klarheit denke ich, dass Sie durch m a x a ( Q ( S ' , a ) ) ersetzen sollten, da es nur eine Aktionswertfunktion gibt. Wir bewerten nur Q für Aktionen in der nächste Zustand. Diese Notation weist auch darauf hin, wo das p ( s ' | s , a ) liegt.meinxein(Q.',ein)meinxein(Q.(S.',ein))p(s'|s,ein)

Intuitiv ist eine Eigenschaft der Umgebung. Wir kontrollieren nicht, wie es funktioniert, sondern probieren es einfach aus. Bevor wir dieses Update aufrufen, müssen wir zuerst eine Aktion A in Status S ausführen. Der Vorgang dazu gibt uns eine Belohnung und schickt uns in den nächsten Status. Der nächste Zustand, in dem Sie landen, wird per Definition aus p ( s | s , a ) gezogen . Im Q-Learning-Update nehmen wir also im Wesentlichen an, dass p ( s ' | s , a ) 1 ist, weil wir dort gelandet sind.p(s'|s,ein)p(s'|s,ein)p(s'|s,ein)

Dies ist in Ordnung, da es sich um eine iterative Methode handelt, bei der die optimale Aktionswertfunktion geschätzt wird, ohne die vollständige Dynamik der Umgebung und insbesondere den Wert von . Wenn Sie zufällig ein Modell der Umgebung haben, das Ihnen diese Informationen liefert, können Sie das Update ändern, um es einzuschließen, indem Sie einfach die Rückkehr zu γ p ( S ' | S , A ) m a x a ( Q ( S ' , a ) ändern ) ) .p(s|s',ein)γp(S.'|S.,EIN)meinxein(Q.(S.',ein))


Vielen Dank für Ihre Antwort. Wenn wir also Q-Learning verwenden, gehen wir einfach davon aus, dass alle Aktionen die gleiche Wahrscheinlichkeit haben. Übrigens, haben Sie eine Idee, welche Methode ( SARSAoder Q-learning) Sie im Umgang mit verschiedenen Situationen anwenden sollten? Vielen Dank.
Hokies

Wir gehen nicht davon aus, dass alle Aktionen die gleiche Wahrscheinlichkeit haben. Wir gehen davon aus, dass die Übergangsfunktion für unsere Berechnung deterministisch ist. Das heißt, wenn Sie dieselbe Aktion aus demselben Status ausführen, gelangen Sie in denselben nächsten Status. Für Sarsa vs Q-Learning schauen Sie hier: stackoverflow.com/questions/6848828/…
Alex

0

Darüber hinaus ist Q-Learning ein modellfreier Algorithmus, dh unser Agent kennt nur die Zustände, die die Umgebung ihm gibt. Mit anderen Worten, wenn ein Agent eine Aktion auswählt und ausführt, wird der nächste Status nur von der Umgebung bestimmt und an den Agenten weitergegeben. Aus diesem Grund denkt der Agent nicht über die Zustandsübergangswahrscheinlichkeiten nach.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.