Das Papier ist hier .
Die Rollout-Richtlinie ... ist eine lineare Softmax-Richtlinie, die auf schnellen, inkrementell berechneten, lokalen musterbasierten Funktionen basiert.
Ich verstehe nicht, was eine Rollout-Richtlinie ist und wie sie sich auf das Richtliniennetzwerk für die Auswahl eines Umzugs bezieht. Eine einfachere Erklärung?