In DeepMinds Artikel über Deep Q-Learning für Atari-Videospiele ( hier ) verwenden sie eine Epsilon-gierige Methode zur Erkundung während des Trainings. Dies bedeutet, dass bei Auswahl einer Aktion im Training diese entweder als Aktion mit dem höchsten q-Wert oder als zufällige Aktion ausgewählt wird. Die Auswahl zwischen diesen beiden erfolgt zufällig und basiert auf dem Wert von Epsilon. Epsilon wird während des Trainings so geglüht, dass zunächst viele zufällige Aktionen ausgeführt werden (Exploration). Im Verlauf des Trainings werden jedoch viele Aktionen mit den maximalen q-Werten ausgeführt (Ausbeutung).
Während des Testens verwenden sie auch diese Epsilon-gierige Methode, wobei Epsilon jedoch einen sehr niedrigen Wert aufweist, sodass eine starke Neigung zur Ausbeutung gegenüber der Exploration besteht und die Auswahl der Aktion mit dem höchsten q-Wert einer zufälligen Aktion vorgezogen wird. Manchmal werden jedoch immer noch zufällige Aktionen ausgewählt (in 5% der Fälle).
Meine Fragen sind: Warum ist zu diesem Zeitpunkt überhaupt eine Erkundung erforderlich, da das Training bereits durchgeführt wurde? Wenn das System die optimale Richtlinie gelernt hat, warum kann dann nicht immer die Aktion mit dem höchsten q-Wert ausgewählt werden? Sollte die Erkundung nicht nur im Training erfolgen und kann der Agent nach dem Erlernen der optimalen Richtlinie einfach wiederholt die optimale Aktion auswählen?
Vielen Dank!