Als «reinforcement-learning» getaggte Fragen

Bei Fragen zum Lernen, die durch externe positive Verstärkung oder negatives Rückkopplungssignal oder beides gesteuert werden und bei denen das Lernen und Verwenden des bisher Gelernten gleichzeitig erfolgt.


1
In welchem ​​Verhältnis stehen Q-Learning-Methoden und Methoden mit politischen Verläufen?
Nach meinem Verständnis sind Q-Learning und Policy Gradients (PG) die beiden wichtigsten Ansätze zur Lösung von RL-Problemen. Während Q-Learning darauf abzielt, die Belohnung einer bestimmten Maßnahme in einem bestimmten Zustand vorherzusagen, prognostizieren Gradienten der Politik die Maßnahme selbst direkt. Beide Ansätze erscheinen mir jedoch identisch, dh die Vorhersage der maximalen …


2
Wie definiere ich Zustände im Bestärkungslernen?
Ich studiere das verstärkende Lernen und die Varianten davon. Ich fange an zu verstehen, wie die Algorithmen funktionieren und wie sie auf ein MDP angewendet werden. Was ich nicht verstehe, ist der Prozess der Definition der Zustände des MDP. In den meisten Beispielen und Tutorials repräsentieren sie etwas Einfaches wie …



2
Inkonsistenter Aktionsbereich beim Reinforcement Learning
Diese Frage betrifft das Reinforcement Learning und unterschiedliche / inkonsistente Aktionsbereiche für jeden / einige Staaten . Was meine ich mit inkonsistentem Aktionsraum ? Angenommen, Sie haben ein MDP, bei dem die Anzahl der Aktionen zwischen den Status variiert (z. B. wie in Abbildung 1 oder Abbildung 2). Wir können …




1
Warum benötigt DQN zwei verschiedene Netzwerke?
Ich habe diese Implementierung von DQN durchlaufen und sehe, dass in den Zeilen 124 und 125 zwei verschiedene Q-Netzwerke initialisiert wurden. Nach meinem Verständnis sagt ein Netzwerk die geeignete Aktion voraus und das zweite Netzwerk sagt die Q-Zielwerte zum Auffinden des Bellman-Fehlers voraus. Warum können wir nicht einfach ein einziges …

3
Warum wird der Abzinsungssatz im REINFORCE-Algorithmus zweimal angezeigt?
Ich las das Buch Reinforcement Learning: Eine Einführung von Richard S. Sutton und Andrew G. Barto (vollständiger Entwurf, 5. November 2017). Auf Seite 291 wird der Pseudocode für die episodische Monte-Carlo-Policy-Gradient-Methode vorgestellt. Wenn ich mir diesen Pseudocode anschaue, kann ich nicht verstehen, warum der Abzinsungssatz anscheinend zweimal erscheint, einmal im …


2
Warum konvergiert Q-Learning nicht, wenn Funktionsnäherung verwendet wird?
Es wird garantiert, dass der tabellarische Q-Lernalgorithmus die optimale Funktion Q ∗ findet , vorausgesetzt, die folgenden Bedingungen (die Robbins-Monro-Bedingungen ) bezüglich der Lernrate sind erfülltQQQQ∗Q∗Q^* ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty wobei αt(s,a)αt(s,a)\alpha_t(s, a) die Lernrate bedeutet, die verwendet wird, wenn der QQQ Wert aktualisiert …

1
Wie können Richtlinienverläufe bei mehreren fortlaufenden Aktionen angewendet werden?
Trusted Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO) sind zwei innovative Algorithmen für Richtliniengradienten. Wenn Sie eine einzelne kontinuierliche Aktion verwenden, verwenden Sie normalerweise eine Wahrscheinlichkeitsverteilung (z. B. Gauß) für die Verlustfunktion. Die grobe Version ist: L ( θ ) = log( P.( a1) ) A ,L(θ)=log⁡(P(a1))A,L(\theta) = …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.