Data Science q-learning

1

Was ist "Experience Replay" und welche Vorteile hat es?

Ich habe gelesen , DeepMind Ataris Google Papier und ich versuche , das Konzept der „Erfahrung replay“ zu verstehen. Die Wiederholung von Erfahrungen ist in vielen anderen Lernpapieren zur Verstärkung enthalten (insbesondere im AlphaGo-Papier), daher möchte ich verstehen, wie es funktioniert. Nachfolgend einige Auszüge. Zunächst verwendeten wir einen biologisch inspirierten …

19 reinforcement-learning q-learning

1

Verstärkungslernen mit neuronalen Netzen verstehen (Q-Learning)

Ich versuche, Verstärkungslernen und Markov-Entscheidungsprozesse (MDP) zu verstehen, wenn ein neuronales Netz als Funktionsnäherungswert verwendet wird. Ich habe Schwierigkeiten mit der Beziehung zwischen dem MDP, in dem die Umgebung auf probabilistische Weise untersucht wird, wie dies auf Lernparameter zurückgeführt wird und wie die endgültige Lösung / Richtlinien gefunden werden. Kann …

9 machine-learning neural-network q-learning

2

Ist das ein Q-Learning-Algorithmus oder nur Brute Force?

Ich habe mit einem Algorithmus gespielt, der lernt, wie man Tictactoe spielt. Der grundlegende Pseudocode lautet: repeat many thousand times { repeat until game is over { if(board layout is unknown or exploring) { move randomly } else { move in location which historically gives highest reward } } for …

8 machine-learning neural-network reinforcement-learning q-learning

2

Warum geht Q Learning auseinander?

Die Zustandswerte meines Q-Learning-Algorithmus weichen immer wieder ins Unendliche ab, was bedeutet, dass auch meine Gewichte voneinander abweichen. Ich verwende ein neuronales Netzwerk für meine Wertzuordnung. Ich habe es versucht: Beschneiden des "Belohnungs + Rabatt * Maximalwert der Aktion" (max / min auf 50 / -50 eingestellt) Einstellen einer niedrigen …

7 machine-learning python reinforcement-learning q-learning

Als «q-learning» getaggte Fragen