Als «deep-rl» getaggte Fragen

Warum verwendet Q-Learning beim Testen epsilon-greedy?

In DeepMinds Artikel über Deep Q-Learning für Atari-Videospiele ( hier ) verwenden sie eine Epsilon-gierige Methode zur Erkundung während des Trainings. Dies bedeutet, dass bei Auswahl einer Aktion im Training diese entweder als Aktion mit dem höchsten q-Wert oder als zufällige Aktion ausgewählt wird. Die Auswahl zwischen diesen beiden erfolgt …

18 machine-learning reinforcement-learning q-learning deep-rl

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.

Licensed under cc by-sa 3.0 with attribution required.