Hier haben Sie einige gute Lehrbücher / Referenzen:
Klassisch
Sutton RS, Barto AG. Reinforcement Learning: Eine Einführung. Cambridge, Mass: Ein Bradford-Buch; 1998. 322 p.
Der Entwurf für die zweite Ausgabe ist kostenlos erhältlich: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
Russell / Norvig Kapitel 21:
Russell SJ, Norvig P, Davis E. Künstliche Intelligenz: ein moderner Ansatz. Upper Saddle River, New Jersey: Prentice Hall; 2010.
Technischer
Szepesvári C. Algorithmen zum verstärkten Lernen. Synthesevorträge zu künstlicher Intelligenz und maschinellem Lernen. 2010; 4 (1): 1–103. http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP. Dynamische Programmierung und optimale Steuerung. 4. Auflage. Belmont, Mass.: Athena Scientific; 2007. 1270 p.
Kapitel 6, Band 2 ist kostenlos verfügbar: http://web.mit.edu/dimitrib/www/dpchapter.pdf
Für neuere Entwicklungen
Wiering M, van Otterlo M, Herausgeber. Verstärkungslernen. Berlin, Heidelberg: Springer Berlin Heidelberg; 2012 Verfügbar ab: http://link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynolds HJD, Thornton JR, et al. Entscheidungsfindung unter Unsicherheit: Theorie und Anwendung. 1 Ausgabe. Cambridge, Massachusetts: Die MIT-Presse; 2015. 352 p.
Multi-Agent-Verstärkungslernen
Buşoniu L, Babuška R, Schutter BD. Multi-Agent Reinforcement Learning: Ein Überblick. In: Srinivasan D, Jain LC, Herausgeber. Innovationen in Multi-Agent-Systemen und -Anwendungen - 1. Springer Berlin Heidelberg; 2010 p. 183–221. Verfügbar unter: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7
Schwartz HM. Maschinelles Lernen mit mehreren Agenten: ein Ansatz zur Verstärkung. Hoboken, New Jersey: Wiley Wiley; 2014.
Videos / Kurse
Ich würde auch David Silver Kurs in YouTube vorschlagen: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa