Bei Fragen zum Lernen, die durch externe positive Verstärkung oder negatives Rückkopplungssignal oder beides gesteuert werden und bei denen das Lernen und Verwenden des bisher Gelernten gleichzeitig erfolgt.
Was ist der Unterschied zwischen modellfreiem und modellbasiertem Bestärkungslernen? Es scheint mir, dass jeder modellfreie Lernende, der durch Ausprobieren lernt, als modellbasiert bezeichnet werden könnte. Wann wären modellfreie Lernende in diesem Fall angemessen?
Nach meinem Verständnis sind Q-Learning und Policy Gradients (PG) die beiden wichtigsten Ansätze zur Lösung von RL-Problemen. Während Q-Learning darauf abzielt, die Belohnung einer bestimmten Maßnahme in einem bestimmten Zustand vorherzusagen, prognostizieren Gradienten der Politik die Maßnahme selbst direkt. Beide Ansätze erscheinen mir jedoch identisch, dh die Vorhersage der maximalen …
Ich möchte eine KI erstellen, die Five-in-A-Row / Gomoku spielen kann. Wie ich bereits im Titel erwähnt habe, möchte ich dafür das verstärkende Lernen verwenden. Ich verwende die Policy-Gradient- Methode, nämlich REINFORCE, mit Baseline. Für die Näherung von Wert und Richtlinienfunktion verwende ich ein neuronales Netz . Es hat Faltungsschichten …
Ich studiere das verstärkende Lernen und die Varianten davon. Ich fange an zu verstehen, wie die Algorithmen funktionieren und wie sie auf ein MDP angewendet werden. Was ich nicht verstehe, ist der Prozess der Definition der Zustände des MDP. In den meisten Beispielen und Tutorials repräsentieren sie etwas Einfaches wie …
Der Titel dieses Artikels lautet zum Beispiel: "Sample Efficient Actor-Critic with Experience Replay". Was ist die Probeneffizienz und wie kann die Wichtigkeit der Probenahme genutzt werden, um sie zu erreichen?
Ich habe mich mit dem verstärkten Lernen befasst und speziell damit herumgespielt, meine eigenen Umgebungen für die Verwendung mit der OpenAI Gym AI zu erstellen. Ich verwende Agenten aus dem Projektziehbare_Basislinien, um damit zu testen. Eine Sache, die mir in praktisch allen RL-Beispielen aufgefallen ist, ist, dass es in keinem …
Diese Frage betrifft das Reinforcement Learning und unterschiedliche / inkonsistente Aktionsbereiche für jeden / einige Staaten . Was meine ich mit inkonsistentem Aktionsraum ? Angenommen, Sie haben ein MDP, bei dem die Anzahl der Aktionen zwischen den Status variiert (z. B. wie in Abbildung 1 oder Abbildung 2). Wir können …
Beim Entwerfen von Lösungen für Probleme wie den Lunar Lander auf OpenAIGym ist Reinforcement Learning ein verlockendes Mittel, um dem Agenten eine angemessene Handlungskontrolle zu geben, um erfolgreich zu landen. Aber was sind die Fälle, in denen Steuersystemalgorithmen, wie PID-Regler , nur eine adäquate Aufgabe übernehmen, wenn nicht sogar eine …
Gibt es eine Möglichkeit, verstärktes Lernen in anderen Anwendungen als Spielen zu unterrichten? Die einzigen Beispiele, die ich im Internet finden kann, sind Spielagenten. Ich verstehe, dass VNCs die Eingabe zu den Spielen über das Verstärkungsnetzwerk steuern. Ist es möglich, dies mit einer CAD-Software einzurichten?
Ich codiere ein Verstärkungslernmodell mit einem PPO-Agenten dank der sehr guten Tensorforce-Bibliothek , die auf Tensorflow basiert. Die erste Version war sehr einfach und ich tauche jetzt in eine komplexere Umgebung ein, in der nicht alle Aktionen bei jedem Schritt verfügbar sind. Angenommen, es gibt 5 Aktionen, deren Verfügbarkeit von …
Ich habe diese Implementierung von DQN durchlaufen und sehe, dass in den Zeilen 124 und 125 zwei verschiedene Q-Netzwerke initialisiert wurden. Nach meinem Verständnis sagt ein Netzwerk die geeignete Aktion voraus und das zweite Netzwerk sagt die Q-Zielwerte zum Auffinden des Bellman-Fehlers voraus. Warum können wir nicht einfach ein einziges …
Ich las das Buch Reinforcement Learning: Eine Einführung von Richard S. Sutton und Andrew G. Barto (vollständiger Entwurf, 5. November 2017). Auf Seite 291 wird der Pseudocode für die episodische Monte-Carlo-Policy-Gradient-Methode vorgestellt. Wenn ich mir diesen Pseudocode anschaue, kann ich nicht verstehen, warum der Abzinsungssatz anscheinend zweimal erscheint, einmal im …
Als Student, der am maschinellen Lernen arbeiten möchte, möchte ich wissen, wie es möglich ist, mein Studium zu beginnen und wie ich es befolgen kann, um auf dem neuesten Stand zu bleiben. Zum Beispiel bin ich bereit, an RL- und MAB-Problemen zu arbeiten, aber es gibt riesige Literaturen zu diesen …
Es wird garantiert, dass der tabellarische Q-Lernalgorithmus die optimale Funktion Q ∗ findet , vorausgesetzt, die folgenden Bedingungen (die Robbins-Monro-Bedingungen ) bezüglich der Lernrate sind erfülltQQQQ∗Q∗Q^* ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty wobei αt(s,a)αt(s,a)\alpha_t(s, a) die Lernrate bedeutet, die verwendet wird, wenn der QQQ Wert aktualisiert …
Trusted Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO) sind zwei innovative Algorithmen für Richtliniengradienten. Wenn Sie eine einzelne kontinuierliche Aktion verwenden, verwenden Sie normalerweise eine Wahrscheinlichkeitsverteilung (z. B. Gauß) für die Verlustfunktion. Die grobe Version ist: L ( θ ) = log( P.( a1) ) A ,L(θ)=log(P(a1))A,L(\theta) = …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.