Ich habe einen tiefgreifenden deterministischen Lernagenten zur Verstärkung von Richtliniengradienten entwickelt, um alle Spiele / Aufgaben mit nur einer Aktion ausführen zu können. Der Agent scheint jedoch schrecklich zu scheitern, wenn zwei oder mehr Aktionen ausgeführt werden. Ich habe versucht, online nach Beispielen für jemanden zu suchen, der DDPG auf einem System mit mehreren Aktionen implementiert, aber die Leute haben es meistens auf das Pendelproblem angewendet, bei dem es sich um ein Problem mit einer Aktion handelt.
Bei meinem aktuellen System handelt es sich um ein System mit 3 Zuständen und 2 kontinuierlichen Steuerungsaktionen (eines dient zum Einstellen der Temperatur des Systems, das andere zum Einstellen einer mechanischen Position, beide sind kontinuierlich). Ich habe jedoch die zweite kontinuierliche Aktion eingefroren, um immer die optimale Aktion zu sein. RL muss also nur eine Aktion manipulieren. Es löst sich innerhalb von 30 Folgen. In dem Moment, in dem ich dem RL erlaube, beide fortlaufenden Aktionen auszuprobieren, konvergiert er jedoch nicht einmal nach 1000 Folgen. In der Tat divergiert es aggressiv. Die Ausgabe des Akteursnetzwerks scheint immer die maximale Aktion zu sein, möglicherweise weil ich eine Tanh-Aktivierung für den Akteur verwende, um eine Ausgabebeschränkung bereitzustellen. Ich habe großen Aktionen eine Strafe hinzugefügt, aber es scheint nicht für den Fall der 2 kontinuierlichen Kontrollaktionen zu funktionieren.
Für mein Erkundungsgeräusch habe ich Ornstein-Ulhenbeck-Geräusch verwendet, wobei die Mittel für die beiden verschiedenen kontinuierlichen Aktionen angepasst wurden. Der Mittelwert des Rauschens beträgt 10% des Mittelwerts der Aktion.
Gibt es einen massiven Unterschied zwischen DDPG mit einer und mehreren Aktionen? Ich habe die Belohnungsfunktion geändert, um beide Aktionen zu berücksichtigen, habe versucht, ein größeres Netzwerk aufzubauen, habe versucht, Prioritäten zu wiederholen usw., aber anscheinend fehlt mir etwas. Hat hier jemand Erfahrung mit dem Aufbau eines DDPG mit mehreren Aktionen und könnte mir einige Hinweise geben?