Künstliche Intelligenz reinforcement-learning

6

Was ist der Unterschied zwischen modellfreiem und modellbasiertem Bestärkungslernen?

Was ist der Unterschied zwischen modellfreiem und modellbasiertem Bestärkungslernen? Es scheint mir, dass jeder modellfreie Lernende, der durch Ausprobieren lernt, als modellbasiert bezeichnet werden könnte. Wann wären modellfreie Lernende in diesem Fall angemessen?

28 reinforcement-learning comparison model-based model-free

1

In welchem Verhältnis stehen Q-Learning-Methoden und Methoden mit politischen Verläufen?

Nach meinem Verständnis sind Q-Learning und Policy Gradients (PG) die beiden wichtigsten Ansätze zur Lösung von RL-Problemen. Während Q-Learning darauf abzielt, die Belohnung einer bestimmten Maßnahme in einem bestimmten Zustand vorherzusagen, prognostizieren Gradienten der Politik die Maßnahme selbst direkt. Beide Ansätze erscheinen mir jedoch identisch, dh die Vorhersage der maximalen …

20 reinforcement-learning q-learning policy-gradients comparison

4

Wie gehe ich mit ungültigen Zügen beim Lernen um?

Ich möchte eine KI erstellen, die Five-in-A-Row / Gomoku spielen kann. Wie ich bereits im Titel erwähnt habe, möchte ich dafür das verstärkende Lernen verwenden. Ich verwende die Policy-Gradient- Methode, nämlich REINFORCE, mit Baseline. Für die Näherung von Wert und Richtlinienfunktion verwende ich ein neuronales Netz . Es hat Faltungsschichten …

20 machine-learning reinforcement-learning game-ai combinatorial-games

2

Wie definiere ich Zustände im Bestärkungslernen?

Ich studiere das verstärkende Lernen und die Varianten davon. Ich fange an zu verstehen, wie die Algorithmen funktionieren und wie sie auf ein MDP angewendet werden. Was ich nicht verstehe, ist der Prozess der Definition der Zustände des MDP. In den meisten Beispielen und Tutorials repräsentieren sie etwas Einfaches wie …

14 reinforcement-learning

2

Was ist die Probeneffizienz und wie kann die Wichtigkeit der Probenahme genutzt werden, um sie zu erreichen?

Der Titel dieses Artikels lautet zum Beispiel: "Sample Efficient Actor-Critic with Experience Replay". Was ist die Probeneffizienz und wie kann die Wichtigkeit der Probenahme genutzt werden, um sie zu erreichen?

14 reinforcement-learning statistical-ai importance-sampling

1

Warum sehen Sie in Beispielen für Verstärkungslernen keine Dropout-Ebenen?

Ich habe mich mit dem verstärkten Lernen befasst und speziell damit herumgespielt, meine eigenen Umgebungen für die Verwendung mit der OpenAI Gym AI zu erstellen. Ich verwende Agenten aus dem Projektziehbare_Basislinien, um damit zu testen. Eine Sache, die mir in praktisch allen RL-Beispielen aufgefallen ist, ist, dass es in keinem …

13 machine-learning reinforcement-learning overfitting dropout

2

Inkonsistenter Aktionsbereich beim Reinforcement Learning

Diese Frage betrifft das Reinforcement Learning und unterschiedliche / inkonsistente Aktionsbereiche für jeden / einige Staaten . Was meine ich mit inkonsistentem Aktionsraum ? Angenommen, Sie haben ein MDP, bei dem die Anzahl der Aktionen zwischen den Status variiert (z. B. wie in Abbildung 1 oder Abbildung 2). Wir können …

13 reinforcement-learning

1

Wann sollte ich Reinforcement Learning vs PID Control verwenden?

Beim Entwerfen von Lösungen für Probleme wie den Lunar Lander auf OpenAIGym ist Reinforcement Learning ein verlockendes Mittel, um dem Agenten eine angemessene Handlungskontrolle zu geben, um erfolgreich zu landen. Aber was sind die Fälle, in denen Steuersystemalgorithmen, wie PID-Regler , nur eine adäquate Aufgabe übernehmen, wenn nicht sogar eine …

12 reinforcement-learning ai-design control-theory

3

Gibt es andere Anwendungen des Verstärkungslernens als Spiele?

Gibt es eine Möglichkeit, verstärktes Lernen in anderen Anwendungen als Spielen zu unterrichten? Die einzigen Beispiele, die ich im Internet finden kann, sind Spielagenten. Ich verstehe, dass VNCs die Eingabe zu den Spielen über das Verstärkungsnetzwerk steuern. Ist es möglich, dies mit einer CAD-Software einzurichten?

12 reinforcement-learning applications

3

Wie kann ein eingeschränkter Aktionsraum beim Lernen zur Stärkung implementiert werden?

Ich codiere ein Verstärkungslernmodell mit einem PPO-Agenten dank der sehr guten Tensorforce-Bibliothek , die auf Tensorflow basiert. Die erste Version war sehr einfach und ich tauche jetzt in eine komplexere Umgebung ein, in der nicht alle Aktionen bei jedem Schritt verfügbar sind. Angenommen, es gibt 5 Aktionen, deren Verfügbarkeit von …

12 deep-learning reinforcement-learning

1

Warum benötigt DQN zwei verschiedene Netzwerke?

Ich habe diese Implementierung von DQN durchlaufen und sehe, dass in den Zeilen 124 und 125 zwei verschiedene Q-Netzwerke initialisiert wurden. Nach meinem Verständnis sagt ein Netzwerk die geeignete Aktion voraus und das zweite Netzwerk sagt die Q-Zielwerte zum Auffinden des Bellman-Fehlers voraus. Warum können wir nicht einfach ein einziges …

12 reinforcement-learning q-learning dqn

3

Warum wird der Abzinsungssatz im REINFORCE-Algorithmus zweimal angezeigt?

Ich las das Buch Reinforcement Learning: Eine Einführung von Richard S. Sutton und Andrew G. Barto (vollständiger Entwurf, 5. November 2017). Auf Seite 291 wird der Pseudocode für die episodische Monte-Carlo-Policy-Gradient-Methode vorgestellt. Wenn ich mir diesen Pseudocode anschaue, kann ich nicht verstehen, warum der Abzinsungssatz anscheinend zweimal erscheint, einmal im …

11 reinforcement-learning algorithm rl-an-introduction reinforce

1

Wie bleibe ich ein aktueller Forscher in der ML / RL-Community?

Als Student, der am maschinellen Lernen arbeiten möchte, möchte ich wissen, wie es möglich ist, mein Studium zu beginnen und wie ich es befolgen kann, um auf dem neuesten Stand zu bleiben. Zum Beispiel bin ich bereit, an RL- und MAB-Problemen zu arbeiten, aber es gibt riesige Literaturen zu diesen …

11 machine-learning reinforcement-learning research markov-decision-process

2

Warum konvergiert Q-Learning nicht, wenn Funktionsnäherung verwendet wird?

Es wird garantiert, dass der tabellarische Q-Lernalgorithmus die optimale Funktion Q ∗ findet , vorausgesetzt, die folgenden Bedingungen (die Robbins-Monro-Bedingungen ) bezüglich der Lernrate sind erfülltQQQQ∗Q∗Q^* ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty wobei αt(s,a)αt(s,a)\alpha_t(s, a) die Lernrate bedeutet, die verwendet wird, wenn der QQQ Wert aktualisiert …

11 reinforcement-learning q-learning deep-rl proofs function-approximation

1

Wie können Richtlinienverläufe bei mehreren fortlaufenden Aktionen angewendet werden?

Trusted Region Policy Optimization (TRPO) und Proximal Policy Optimization (PPO) sind zwei innovative Algorithmen für Richtliniengradienten. Wenn Sie eine einzelne kontinuierliche Aktion verwenden, verwenden Sie normalerweise eine Wahrscheinlichkeitsverteilung (z. B. Gauß) für die Verlustfunktion. Die grobe Version ist: L ( θ ) = log( P.( a1) ) A ,L(θ)=log⁡(P(a1))A,L(\theta) = …

11 deep-learning reinforcement-learning trpo

Als «reinforcement-learning» getaggte Fragen