Ich habe gerade mit Sutton und Bartos Buch Reinforcement Learning: An Introduction begonnen und bin gespannt, wie ich über die Antwort auf Übung 1.1: Selbstspiel nachdenken soll . Angenommen, anstatt gegen einen zufälligen Gegner zu spielen, spielt der oben beschriebene Verstärkungslernalgorithmus gegen sich selbst. Was denkst du würde in diesem Fall passieren? Würde es eine andere Art zu spielen lernen?
Man könnte auch an die folgenden verwandten Unterfragen denken, aber sie haben meine Gedanken nicht klarer gemacht.
- Würde das Entfernen des zufälligen Teils des Lernens die Situation ändern - dh immer einer optimalen Politik folgen und nicht erforschen?
- Wie würde es davon abhängen, wer der erste Beweger ist?