Als «reinforcement-learning» getaggte Fragen

Bei Fragen zum Lernen, die durch externe positive Verstärkung oder negatives Rückkopplungssignal oder beides gesteuert werden und bei denen das Lernen und Verwenden des bisher Gelernten gleichzeitig erfolgt.

3
Was ist der Unterschied zwischen Schauspieler-Kritiker und Vorteils-Schauspieler-Kritiker?
Ich kämpfe darum, den Unterschied zwischen Schauspieler-Kritiker und Vorteil-Schauspieler-Kritiker zu verstehen. Zumindest weiß ich, dass sie sich von A3C (Asynchronous Advantage Actor-Critical) unterscheiden, da A3C einen asynchronen Mechanismus hinzufügt, der mehrere Worker-Agenten verwendet, die mit ihrer eigenen Kopie der Umgebung interagieren, und den Gradienten an den globalen Agenten meldet. Aber …

3
Ist die optimale Politik immer stochastisch, wenn die Umgebung auch stochastisch ist?
Ist die optimale Politik immer stochastisch (dh eine Karte von Zuständen zu einer Wahrscheinlichkeitsverteilung über Aktionen), wenn die Umgebung auch stochastisch ist? Intuitiv, wenn die Umgebung ist deterministisch (das heißt, wenn das Mittel in einem Zustand ist und greift , dann wird der nächste Zustand ist immer gleich, egal welcher …


2
Warum ist die Grundlinie zu einem bestimmten Zeitpunkt unvoreingenommen vom Zustand abhängig?
In der Robotik wird die Verstärkunglerntechnik verwendet, um das Steuermuster für einen Roboter zu finden. Leider sind die meisten Methoden mit politischem Gradienten statistisch voreingenommen, was den Roboter in eine unsichere Situation bringen könnte, siehe Seite 2 in Jan Peters und Stefan Schaal: Verstärktes Erlernen motorischer Fähigkeiten mit politischen Gradienten, …

1
Einige Zweifel an der Anwendung des Verstärkungslernens auf Spiele wie Schach
Ich habe ein schachähnliches Brettspiel erfunden. Ich habe einen Motor gebaut, damit er autonom spielen kann. Der Motor ist im Grunde ein Entscheidungsbaum. Es besteht aus: Eine Suchfunktion, die an jedem Knoten alle möglichen legalen Bewegungen findet Eine Bewertungsfunktion, die der Brettposition einen numerischen Wert zuweist (positiv bedeutet, dass der …

3
Qualifiziert sich die Monte-Carlo-Baumsuche als maschinelles Lernen?
Nach meinem besten Verständnis ist der Monte-Carlo-Baumsuchalgorithmus (MCTS) eine Alternative zum Minimax für die Suche in einem Knotenbaum. Es funktioniert, indem Sie einen Zug auswählen (im Allgemeinen den mit der höchsten Chance, der Beste zu sein) und dann während des Zuges ein zufälliges Playout durchführen, um das Ergebnis zu sehen. …

4
Was bedeutet „stationär“ im Kontext des verstärkenden Lernens?
Ich glaube, ich habe die Ausdrücke "stationäre Daten", "stationäre Dynamik" und "stationäre Politik" unter anderem im Zusammenhang mit dem verstärkten Lernen gesehen. Was bedeutet das? Ich denke, stationäre Politik bedeutet, dass die Politik nicht von der Zeit abhängt, sondern nur vom Staat. Aber ist das nicht eine unnötige Unterscheidung? Wenn …






1
Gibt es einen Unterschied in der Architektur des vertieften Lernens, wenn mehrere Aktionen anstelle einer einzelnen Aktion ausgeführt werden?
Ich habe einen tiefgreifenden deterministischen Lernagenten zur Verstärkung von Richtliniengradienten entwickelt, um alle Spiele / Aufgaben mit nur einer Aktion ausführen zu können. Der Agent scheint jedoch schrecklich zu scheitern, wenn zwei oder mehr Aktionen ausgeführt werden. Ich habe versucht, online nach Beispielen für jemanden zu suchen, der DDPG auf …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.