Antworten:
Aus dem Deep Stack-Papier :
Dies scheint für das Training zu sein:
Für das Turn-Netzwerk wurden zehn Millionen Poker-Turn-Situationen (ab dem Austeilen der Turn-Karte) generiert und mit 6.144 CPU-Kernen des Calcul Quebec MP2-Forschungsclusters gelöst, wobei mehr als 175 Kernjahre Rechenzeit verwendet wurden. Für das Flop-Netzwerk wurden eine Million Poker-Flop-Situationen (ab dem Austeilen der Flop-Karten) generiert und gelöst. Diese Situationen wurden mit dem tiefenbegrenzten Löser von DeepStack mit dem Turn-Netzwerk gelöst, das für die kontrafaktischen Werte in öffentlichen Staaten unmittelbar nach der Turn-Karte verwendet wurde. Wir haben einen Cluster von 20 GPUS und einem halben GPU-Jahr Rechenzeit verwendet. Für das Hilfsnetz wurden zehn Millionen Situationen erzeugt und die Zielwerte erhalten, indem alle 22.100 möglichen Flops aufgelistet und die kontrafaktischen Werte aus der Ausgabe des Flop-Netzwerks gemittelt wurden.
Und das für das eigentliche Spiel:
Die Neulösungsberechnung und die Auswertung des neuronalen Netzwerks sind beide in Torch7 (53) implementiert und werden auf einer einzelnen NVIDIA GeForce GTX 1080-Grafikkarte ausgeführt.
Zum Vergleich: Die verteilte Version von AlphaGo benötigte 1.920 CPUs und 280 GPUs.