Bei Fragen zum Lernen, die durch externe positive Verstärkung oder negatives Rückkopplungssignal oder beides gesteuert werden und bei denen das Lernen und Verwenden des bisher Gelernten gleichzeitig erfolgt.
Ich kämpfe darum, den Unterschied zwischen Schauspieler-Kritiker und Vorteil-Schauspieler-Kritiker zu verstehen. Zumindest weiß ich, dass sie sich von A3C (Asynchronous Advantage Actor-Critical) unterscheiden, da A3C einen asynchronen Mechanismus hinzufügt, der mehrere Worker-Agenten verwendet, die mit ihrer eigenen Kopie der Umgebung interagieren, und den Gradienten an den globalen Agenten meldet. Aber …
Ist die optimale Politik immer stochastisch (dh eine Karte von Zuständen zu einer Wahrscheinlichkeitsverteilung über Aktionen), wenn die Umgebung auch stochastisch ist? Intuitiv, wenn die Umgebung ist deterministisch (das heißt, wenn das Mittel in einem Zustand ist und greift , dann wird der nächste Zustand ist immer gleich, egal welcher …
In der Mathematik, das Wort Operator kann auf mehrere unterschiedliche , aber verwandte Begriffe beziehen. Ein Operator kann als eine Funktion zwischen zwei Vektorräumen definiert werden, er kann als eine Funktion definiert werden, bei der die Domäne und die Codomäne gleich sind, oder er kann als eine Funktion von Funktionen …
In der Robotik wird die Verstärkunglerntechnik verwendet, um das Steuermuster für einen Roboter zu finden. Leider sind die meisten Methoden mit politischem Gradienten statistisch voreingenommen, was den Roboter in eine unsichere Situation bringen könnte, siehe Seite 2 in Jan Peters und Stefan Schaal: Verstärktes Erlernen motorischer Fähigkeiten mit politischen Gradienten, …
Ich habe ein schachähnliches Brettspiel erfunden. Ich habe einen Motor gebaut, damit er autonom spielen kann. Der Motor ist im Grunde ein Entscheidungsbaum. Es besteht aus: Eine Suchfunktion, die an jedem Knoten alle möglichen legalen Bewegungen findet Eine Bewertungsfunktion, die der Brettposition einen numerischen Wert zuweist (positiv bedeutet, dass der …
Nach meinem besten Verständnis ist der Monte-Carlo-Baumsuchalgorithmus (MCTS) eine Alternative zum Minimax für die Suche in einem Knotenbaum. Es funktioniert, indem Sie einen Zug auswählen (im Allgemeinen den mit der höchsten Chance, der Beste zu sein) und dann während des Zuges ein zufälliges Playout durchführen, um das Ergebnis zu sehen. …
Ich glaube, ich habe die Ausdrücke "stationäre Daten", "stationäre Dynamik" und "stationäre Politik" unter anderem im Zusammenhang mit dem verstärkten Lernen gesehen. Was bedeutet das? Ich denke, stationäre Politik bedeutet, dass die Politik nicht von der Zeit abhängt, sondern nur vom Staat. Aber ist das nicht eine unnötige Unterscheidung? Wenn …
Gibt es Methoden für Gradienten außerhalb der Richtlinien? Ich weiß, dass Richtliniengradientenmethoden selbst die Richtlinienfunktion für Stichproben-Rollouts verwenden. Aber können wir nicht einfach ein Modell für die Probenahme aus der Umgebung haben? Wenn ja, habe ich das noch nie gesehen.
Ich bin mit überwachtem und unbeaufsichtigtem Lernen vertraut. Ich habe den SaaS-Kurs von Andrew Ng auf Coursera.org gemacht. Ich suche etwas Ähnliches für das verstärkte Lernen. Kannst du etwas empfehlen?
OpenAIs Universum verwendet RL-Algorithmen und ich habe von einigen Spieltrainingsprojekten mit Q-Learning gehört, aber gibt es noch andere, die zum Meistern / Gewinnen von Spielen verwendet werden? Können genetische Algorithmen verwendet werden, um bei einem Spiel zu gewinnen?
Die meisten Einführungen in den Bereich MDPs und Reinforcement-Lernen konzentrieren sich ausschließlich auf Bereiche, in denen Raum- und Aktionsvariablen Ganzzahlen (und endlich) sind. Auf diese Weise werden wir schnell in Value Iteration, Q-Learning und dergleichen eingeführt. Die interessantesten Anwendungen (z. B. fliegende Hubschrauber ) von RL und MDP umfassen jedoch …
Angesichts eines großen Problems scheinen Wertiterationen und andere tabellenbasierte Ansätze zu viele Iterationen zu erfordern, bevor sie konvergieren. Gibt es andere Lernansätze zur Verstärkung, die sich besser auf große Probleme skalieren lassen und die Anzahl der Iterationen im Allgemeinen minimieren?
Ich habe einen tiefgreifenden deterministischen Lernagenten zur Verstärkung von Richtliniengradienten entwickelt, um alle Spiele / Aufgaben mit nur einer Aktion ausführen zu können. Der Agent scheint jedoch schrecklich zu scheitern, wenn zwei oder mehr Aktionen ausgeführt werden. Ich habe versucht, online nach Beispielen für jemanden zu suchen, der DDPG auf …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.