Eine Reihe dynamischer Strategien, mit denen ein Algorithmus die Struktur einer Umgebung online lernen kann, indem er adaptiv Aktionen ausführt, die mit verschiedenen Belohnungen verbunden sind, um die erzielten Belohnungen zu maximieren.
Ich habe Schwierigkeiten, eine Erklärung dafür zu finden, warum Standard-Q-Learning dazu neigt, Q-Werte zu überschätzen (was durch die Verwendung von doppeltem Q-Learning behoben wird). Die einzigen Quellen, die ich gefunden habe, erklären nicht genau, warum diese Überschätzung auftritt. Zum Beispiel sagt der Wikipedia-Artikel über Q-Learning: Da der maximale angenäherte Aktionswert …
Diese Frage bezieht sich auf das Deepmind-Papier zu DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . Die meisten (alle?) Implementierungen des DDPG-Algorithmus, die ich gesehen habe, berechnen die Gradientenaktualisierung für das Akteursnetzwerk durch ∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)), wo θθ\theta stellt die Parameter des Akteursnetzwerks dar, μμ\mu repräsentiert das Akteursnetzwerk, QQQ repräsentiert das Kritikernetzwerk und sssrepräsentiert die Zustandseingabe. Ich …
Ich versuche, das Papier von openAI mit dem Titel Multi-Agent Actor-Critic für gemischte kooperativ-wettbewerbsorientierte Umgebungen zu verstehen In dem Papier erwähnen sie, dass sie das Problem der Nichtstationarität der Umwelt bekämpfen, indem sie Stichproben aus Teilrichtlinien ziehen: Ich bin verwirrt über: (1) wie Subsampling das Problem der Nichtstationarität lösen würde …
Mein Arbeitsplatz hat eine zweiwöchige Code-Herausforderung, bei der ein Algorithmus erstellt wird, mit dem unter bestimmten Einschränkungen 100 Bob Ross-Musterbilder so genau wie möglich reproduziert werden können: "Gemälde" werden als JSON-Datei eingereicht, die eine Hintergrundfarbe und eine Reihe von "Pinselstrichen" enthält. Pinselstriche haben einen Startpunkt, einen Endpunkt, einen Radius und …
Ich habe eine Frage zu Methoden der Schauspielerkritik beim Lernen zur Stärkung. In diesen Folien ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) werden verschiedene Arten von Schauspieler-Kritikern erläutert. Vorteil Schauspieler Kritiker und TD Schauspieler Kritiker werden auf der letzten Folie erwähnt: Wenn ich mir aber die Folie "Schätzen der Vorteilsfunktion (2)" anschaue, heißt es, …
Ich habe einen Stapel von Artikeln über Faltungsnetzwerke und das Lernen der Verstärkung gelesen. Ich erinnere mich an ein wichtiges Papier mit einer nicht rechteckigen Form der Faltungsschicht (die grüne Form in dieser albernen Zeichnung). Aber jetzt kann ich es nicht finden. Es könnte etwas Ähnliches wie das AlphaGo-Papier oder …
Ich habe gerade mit Sutton und Bartos Buch Reinforcement Learning: An Introduction begonnen und bin gespannt, wie ich über die Antwort auf Übung 1.1: Selbstspiel nachdenken soll . Angenommen, anstatt gegen einen zufälligen Gegner zu spielen, spielt der oben beschriebene Verstärkungslernalgorithmus gegen sich selbst. Was denkst du würde in diesem …
Ist es in RL üblich, am Ende der Aufgabe nur eine Belohnung zu erhalten? Oder ist es auch möglich, Unteraufgaben / Zwischenziele einzuführen, damit das Feedback nicht so verzögert wird und mehr Belohnungen (Funktionen) erforderlich sind?
Angenommen, der Lernende beherrscht künstliche neuronale Netze und verfügt über einen Hintergrund im Bereich des verstärkten Lernens. Was sind einige gute Ressourcen (Bücher / Videos / Papiere / GitHub-Repo / etc.), Um mit dem vertieften Lernen zu beginnen?
Dies ist aus einem Artikel 'Algorithmen für inverses Verstärkungslernen' von Ng, Russell (2001) Wir gehen davon aus, dass wir in der Lage sind, Trajektorien im MDP (ab dem Anfangszustand ) unter der optimalen Richtlinie oder unter einer Richtlinie unserer Wahl zu simulieren . Für jede Richtlinie , die wir berücksichtigen …
Wir haben einen Musik-Player mit unterschiedlichen Wiedergabelisten, der automatisch Titel aus der aktuellen Wiedergabeliste vorschlägt, in der ich mich befinde. Ich möchte, dass das Programm lernt, dass wenn ich den Titel überspringe, die Wahrscheinlichkeit verringert wird, dass er erneut in dieser Wiedergabeliste abgespielt wird . Ich denke, dies wird als …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.