Beim Entwerfen von Lösungen für Probleme wie den Lunar Lander auf OpenAIGym ist Reinforcement Learning ein verlockendes Mittel, um dem Agenten eine angemessene Handlungskontrolle zu geben, um erfolgreich zu landen.
Aber was sind die Fälle, in denen Steuersystemalgorithmen, wie PID-Regler , nur eine adäquate Aufgabe übernehmen, wenn nicht sogar eine bessere als das Reinforcement Learning?
Fragen wie diese leisten hervorragende Arbeit bei der Beantwortung der Theorie dieser Frage, tun jedoch wenig, um die praktische Komponente anzusprechen.
Welche Elemente einer Problemdomäne sollten mir als Ingenieur für künstliche Intelligenz nahelegen, dass ein PID-Regler nicht ausreicht, um ein Problem zu lösen, und stattdessen sollte ein Algorithmus zum Lernen der Verstärkung verwendet werden (oder umgekehrt)?