Als «reinforcement-learning» getaggte Fragen

Eine Reihe dynamischer Strategien, mit denen ein Algorithmus die Struktur einer Umgebung online lernen kann, indem er adaptiv Aktionen ausführt, die mit verschiedenen Belohnungen verbunden sind, um die erzielten Belohnungen zu maximieren.

3
Warum überschätzt Q-Learning die Aktionswerte?
Ich habe Schwierigkeiten, eine Erklärung dafür zu finden, warum Standard-Q-Learning dazu neigt, Q-Werte zu überschätzen (was durch die Verwendung von doppeltem Q-Learning behoben wird). Die einzigen Quellen, die ich gefunden habe, erklären nicht genau, warum diese Überschätzung auftritt. Zum Beispiel sagt der Wikipedia-Artikel über Q-Learning: Da der maximale angenäherte Aktionswert …

3
Berechnung der Aktualisierung des Akteursgradienten im DDPG-Algorithmus (Deep Deterministic Policy Gradient)
Diese Frage bezieht sich auf das Deepmind-Papier zu DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . Die meisten (alle?) Implementierungen des DDPG-Algorithmus, die ich gesehen habe, berechnen die Gradientenaktualisierung für das Akteursnetzwerk durch ∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)), wo θθ\theta stellt die Parameter des Akteursnetzwerks dar, μμ\mu repräsentiert das Akteursnetzwerk, QQQ repräsentiert das Kritikernetzwerk und sssrepräsentiert die Zustandseingabe. Ich …

1
Multi-Agent-Schauspieler-Kritiker MADDPG-Algorithmus Verwirrung
Ich versuche, das Papier von openAI mit dem Titel Multi-Agent Actor-Critic für gemischte kooperativ-wettbewerbsorientierte Umgebungen zu verstehen In dem Papier erwähnen sie, dass sie das Problem der Nichtstationarität der Umwelt bekämpfen, indem sie Stichproben aus Teilrichtlinien ziehen: Ich bin verwirrt über: (1) wie Subsampling das Problem der Nichtstationarität lösen würde …

2
Ist Reinforcement Learning die richtige Wahl für das Malen wie Bob Ross?
Mein Arbeitsplatz hat eine zweiwöchige Code-Herausforderung, bei der ein Algorithmus erstellt wird, mit dem unter bestimmten Einschränkungen 100 Bob Ross-Musterbilder so genau wie möglich reproduziert werden können: "Gemälde" werden als JSON-Datei eingereicht, die eine Hintergrundfarbe und eine Reihe von "Pinselstrichen" enthält. Pinselstriche haben einen Startpunkt, einen Endpunkt, einen Radius und …

2
Unterschied zwischen Advantage Actor Critic und TD Actor Critic?
Ich habe eine Frage zu Methoden der Schauspielerkritik beim Lernen zur Stärkung. In diesen Folien ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) werden verschiedene Arten von Schauspieler-Kritikern erläutert. Vorteil Schauspieler Kritiker und TD Schauspieler Kritiker werden auf der letzten Folie erwähnt: Wenn ich mir aber die Folie "Schätzen der Vorteilsfunktion (2)" anschaue, heißt es, …

2
Verwendung nicht rechteckiger Kernel in Faltungs-Neuronalen Netzen? Besonders bei der Analyse von Spielbrettern
Ich habe einen Stapel von Artikeln über Faltungsnetzwerke und das Lernen der Verstärkung gelesen. Ich erinnere mich an ein wichtiges Papier mit einer nicht rechteckigen Form der Faltungsschicht (die grüne Form in dieser albernen Zeichnung). Aber jetzt kann ich es nicht finden. Es könnte etwas Ähnliches wie das AlphaGo-Papier oder …

1
Reinforcement Learning von Sutton, Tic Tac Toe Self Play
Ich habe gerade mit Sutton und Bartos Buch Reinforcement Learning: An Introduction begonnen und bin gespannt, wie ich über die Antwort auf Übung 1.1: Selbstspiel nachdenken soll . Angenommen, anstatt gegen einen zufälligen Gegner zu spielen, spielt der oben beschriebene Verstärkungslernalgorithmus gegen sich selbst. Was denkst du würde in diesem …




3
Markov-Entscheidungsprozess in R für eine Song-Vorschlags-Software?
Wir haben einen Musik-Player mit unterschiedlichen Wiedergabelisten, der automatisch Titel aus der aktuellen Wiedergabeliste vorschlägt, in der ich mich befinde. Ich möchte, dass das Programm lernt, dass wenn ich den Titel überspringe, die Wahrscheinlichkeit verringert wird, dass er erneut in dieser Wiedergabeliste abgespielt wird . Ich denke, dies wird als …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.