Gibt es einen Unterschied in der Architektur des vertieften Lernens, wenn mehrere Aktionen anstelle einer einzelnen Aktion ausgeführt werden?

Ich habe einen tiefgreifenden deterministischen Lernagenten zur Verstärkung von Richtliniengradienten entwickelt, um alle Spiele / Aufgaben mit nur einer Aktion ausführen zu können. Der Agent scheint jedoch schrecklich zu scheitern, wenn zwei oder mehr Aktionen ausgeführt werden. Ich habe versucht, online nach Beispielen für jemanden zu suchen, der DDPG auf einem System mit mehreren Aktionen implementiert, aber die Leute haben es meistens auf das Pendelproblem angewendet, bei dem es sich um ein Problem mit einer Aktion handelt.

Bei meinem aktuellen System handelt es sich um ein System mit 3 Zuständen und 2 kontinuierlichen Steuerungsaktionen (eines dient zum Einstellen der Temperatur des Systems, das andere zum Einstellen einer mechanischen Position, beide sind kontinuierlich). Ich habe jedoch die zweite kontinuierliche Aktion eingefroren, um immer die optimale Aktion zu sein. RL muss also nur eine Aktion manipulieren. Es löst sich innerhalb von 30 Folgen. In dem Moment, in dem ich dem RL erlaube, beide fortlaufenden Aktionen auszuprobieren, konvergiert er jedoch nicht einmal nach 1000 Folgen. In der Tat divergiert es aggressiv. Die Ausgabe des Akteursnetzwerks scheint immer die maximale Aktion zu sein, möglicherweise weil ich eine Tanh-Aktivierung für den Akteur verwende, um eine Ausgabebeschränkung bereitzustellen. Ich habe großen Aktionen eine Strafe hinzugefügt, aber es scheint nicht für den Fall der 2 kontinuierlichen Kontrollaktionen zu funktionieren.

Für mein Erkundungsgeräusch habe ich Ornstein-Ulhenbeck-Geräusch verwendet, wobei die Mittel für die beiden verschiedenen kontinuierlichen Aktionen angepasst wurden. Der Mittelwert des Rauschens beträgt 10% des Mittelwerts der Aktion.

Gibt es einen massiven Unterschied zwischen DDPG mit einer und mehreren Aktionen? Ich habe die Belohnungsfunktion geändert, um beide Aktionen zu berücksichtigen, habe versucht, ein größeres Netzwerk aufzubauen, habe versucht, Prioritäten zu wiederholen usw., aber anscheinend fehlt mir etwas. Hat hier jemand Erfahrung mit dem Aufbau eines DDPG mit mehreren Aktionen und könnte mir einige Hinweise geben?

deep-learning reinforcement-learning

— Rui Nian
quelle

Technisch gesehen besteht der Unterschied hier zwischen Aktionen in (einer Teilmenge von)

R

$\mathbb{R}$ und

R^{n}

$\mathbb{R}^n$ , nicht zwischen 1 oder mehr "Aktionen". Mit anderen Worten, Sie haben hier einen Aktionsbereich, der möglicherweise mehrere Dimensionen hat, und bei Ihrem Agenten läuft etwas schief, wenn zwei oder mehr Dimensionen vorhanden sind. Wenn in RL etwas als "mit 2 Aktionen" beschrieben wird, ist dies normalerweise eine Aufzählung - dh der Agent kann Aktion A oder Aktion B ausführen, und es sind keine Mengen beteiligt.

— Neil Slater

Hallo Neil, danke für die Antwort. Ja, für klassische RL sind die Aktionen der Agenten in der Tat diskret. Im Jahr 2015 veröffentlichte Lilicrap jedoch ein Papier mit dem Titel "Kontinuierliche Kontrolle mit tiefem Verstärkungslernen". Im Jahr 2017 wurden die TRPO- und PPO-Algorithmen so konzipiert, dass Agenten mehrere kontinuierliche Aktionen ausführen können. Sie haben also Recht damit, dass sich meine Aktion in einem hochdimensionalen Raum befindet. In meiner Forschung vergleiche ich die modellprädiktive Steuerung mithilfe der Trajektorienoptimierung mit der AI-basierten Steuerung. In der Robotik und Mechatronik bewegen Roboter normalerweise mehrere Teile. Ich versuche das mit RL zu erreichen.

— Rui Nian

Ich schlage vor, dass Sie eine genauere Beschreibung Ihres RL-Problems bearbeiten , um den Satz "Für mein aktuelles System ist es ein 3-Status-, 2-Aktionssystem" zu ersetzen. - weil es in keiner Literatur so beschrieben wird. Möglicherweise lohnt es sich auch zu erklären, wie Sie die Erkundungsfunktion ("Schauspielerrauschen") angepasst haben, da ein Fehler der Schlüssel wäre.

— Neil Slater

Erledigt! Ich werde auch verschiedene explorative Lärmmittel ausprobieren, um zu sehen, ob es hilft.

— Rui Nian

Vielen Dank. Ich habe mich gefragt, ob Sie es irgendwie versäumt haben, sich auf unterschiedliche Maßstäbe der beiden Aktionsachsen einzustellen, aber es sieht nicht so aus. Ich kann nicht wirklich sagen, was los ist. Ich persönlich würde jedoch nicht erwarten, dass DDPG beim Skalieren von einer auf zwei Aktionsdimensionen so fragil ist, sodass ich immer noch etwas an Ihrer Implementierung vermuten würde - ich weiß nur nicht, was es sein könnte.

— Neil Slater

Erste gestellte Frage

Gibt es einen Unterschied in der Architektur des vertieften Lernens, wenn mehrere Aktionen anstelle einer einzelnen Aktion ausgeführt werden?

Die Art und Weise, wie die Frage formuliert ist, impliziert, dass es sich bei der Abfrage um eine diskrete Implikation handelt, dass eine architektonische Änderung ein Gebot ist. Da eine Aktion aus mehreren Aktionen bestehen kann, ist es nicht so, ob Sequenzierungsabhängigkeiten von den Komponentenaktionen bestehen oder nicht. Bei der Steuerung zweier physikalischer Eigenschaften hat der Steuerraum zwei Freiheitsgrade. Dass sie mit diskreten Korrekturen gesteuert werden, führt zu einer Mischung aus kontinuierlicher und diskreter Mathematik, die in der Steuerung üblich ist.

Aus dem Text und den Kommentaren geht hervor, dass der Autor der Frage wahrscheinlich mit diesen Fakten vertraut ist. Eine der beiden beschriebenen Hauptfragen ist, ob mit einer komplexeren Prozesstopologie oder anderen strategischen Anwendungen der Erwartungs- und Wahrscheinlichkeitsverteilungsmathematik Gewinne erzielt werden können. Solche Gewinne könnten erreichbar sein.

Schnellere Reaktion (zeitliche Genauigkeit)
Genauigkeit bei der objektiven Verfolgung (unabhängig von der Zeit)
Tracking-Zuverlässigkeit (kein grober Synchronisationsverlust aufgrund von Signalsättigung oder Übersteuerung)
Risikoaversion (Vermeidung unwiederbringlicher Verluste in spärlich oder schwach charakterisierten Pfadräumen)

Bei Temperatur und Position ist eine weitere topologische Verfeinerung nicht wahrscheinlich.

Langfristiges Forschungsziel

Später auf dem Forschungspfad werden topologische Änderungen des Prozess- und Signalflusses (früh in der Entwicklung der Systemarchitektur) wahrscheinlich die Systemqualität verbessern. Dies ist wahrscheinlich angesichts der erklärten Absicht, einen intelligenten Lerncontroller zu entwickeln, der das Beste aus mehreren konzeptionellen Quellen nutzt.

Deterministischer Lernagent zur Verstärkung des Gradienten der Politik, dessen Proof of Concept in 30 Episoden mit einem Freiheitsgrad konvergiert, Position
Lilicraps kontinuierliche Kontrolle mit tiefem Verstärkungslernen, 2015
Agenten für TRPO- und PPO-Algorithmen zur Durchführung mehrerer kontinuierlicher Aktionen, 2017
Tesla Megafabrik
Vorausschauende Steuerung durch Trajektorienoptimierung
Automatisierte, fortschrittliche Modellentwicklung

Ob es einen Schnittpunkt aller sechs gibt, der vom Beitrag jedes einzelnen profitiert, ist unwahrscheinlich, aber eine vernünftige Hypothese zu testen.

Sofortige Sorge

Die Beschreibung der aktuellen Ausgabe hängt nicht eng mit der zuerst genannten Frage oder dem endgültigen Ziel zusammen, sondern ist eine Anomalie im aktuellen Proof of Concept.

Das Hinzufügen eines zweiten Freiheitsgrades, der Temperatur, "Fail [s] schrecklich [und] divergiert aggressiv", bevor 1.000 Episoden erreicht werden, ist in der Tat eine Anomalie. Es ist unwahrscheinlich, dass die Injektion von -20 dB Ornstein-Ulhenbeck-Rauschen, gemessen anhand der mittleren Amplitude (10%), um Suchfallen zu vermeiden, damit zusammenhängt

Gibt es einen massiven Unterschied zwischen einzelnen [Freiheitsgraden] und mehreren [Freiheitsgraden in] DDPG?

Nur wenn die Person, die die Software erweitert, nicht mit multivariaten Berechnungen vertraut ist.

Die versuchten Mittel scheinen keine Ergebnisse zu liefern, was nicht überraschend ist, da keines mit einer wahrscheinlichen Grundursache zu tun hat.

Aggregationsaktionen für Belohnungsfunktionen
Größeres Netzwerk
Prioritätswiedergabe
Aktivierung von Tanh
Strafe für große Aktionen

Das sechste erwähnte Ding könnte eher die Divergenz beheben.

Neue Interpretationen von Aktionen und Belohnungen

Die beschriebene besondere Anomalie weist, wenn auch ohne große Einzelheiten, auf einige häufige Ursachen für unerwartete grobe Divergenz hin.

Misshandlung eines Minuszeichens während der Ausführung des Kalküls oder der zugehörigen Algebra
Ein Fehler in einer partiellen Ableitung
Verwenden Sie nur die Diagonale des Jacobian oder die Ablehnung eines anderen Musters innerhalb des Jacobian bei seiner Anwendung auf korrigierende Signale oder prädiktive Quantifizierung

— Douglas Daseeco
quelle

Hallo Douglas, danke für die Antwort. Ihre Antwort war sicherlich sehr hilfreich. Das Problem ergab sich tatsächlich aus integralen Abwicklungszuständen. Kennen Sie derzeit Methoden, die mit integralen Abwicklungszuständen umgehen können? Nochmals vielen Dank für Ihre Antwort!

— Rui Nian

signal.uu.se/Publications/pdf/a032.pdf

— Douglas Daseeco