Nichts in den von ihnen verwendeten Komponenten ist neu. Alle Ansätze wurden untersucht. Wenn Sie ihre Referenzen überprüfen, werden Sie feststellen, dass viele Forscher ähnliche Arbeiten ausführen. Die Neuheit war die Pipeline, der sie folgten, und die Kombination von modellfreien und modellbasierten Reinforcement Learning-Ansätzen. Ich werde versuchen, Ihnen eine nicht technisch andere Perspektive auf das zu geben, was sie aufgenommen haben.
Modellfreie Ansätze versuchen normalerweise, Funktionen wie Wertfunktionen (die darstellen, wie gut es ist, in einem bestimmten Zustand zu sein - Board-Konfiguration - in Bezug auf die zukünftige Belohnung) oder parametrisierte Richtlinienfunktionen (Wahrscheinlichkeiten für die Auswahl einer Aktion in einem bestimmten Zustand) zu approximieren Ihr Modell erhält eine Art " Intuition ", bei der Züge relativ gut sind - etwas Ähnliches wie die Intuition, die professionelle Go-Spieler haben, wenn sie erklären, dass sie einen Zug machen, weil er sich "gut anfühlt". Dies ist in der frühen Phase sehr wichtig des Spiels, wenn die Planung ineffizient zu verwenden ist.
Modellbasierte Ansätze versuchen, jede einzelne mögliche Flugbahn des Spiels in Form eines Entscheidungsbaums zu simulieren. Daher sind sie nützlich für die Planung (bevor Sie tatsächlich einen Zug im Spiel machen, überprüfen und bewerten Sie alle möglichen Eventualitäten und entscheiden dann, welchen Zug Sie von Ihrer aktuellen Position aus nehmen möchten). Das MCTS ist ein solcher Algorithmus, erstellt aus der aktuellen Brettposition einen Entscheidungsbaum über mögliche zukünftige Spielverläufe und bewertet diese Heuristiken nach bestimmten Kriterien. Die besten Algorithmen in Go basierten bisher auf diesem Algorithmus (und werden als RL-Algorithmus betrachtet).
In Bezug auf Neuheit mit wenigen Worten: Kombination von Planung und Intuition, dh Kombination des MCTS-Algorithmus mit Funktionsapproximatoren zur Bewertung der simulierten Spielverläufe. In diesem Fall verwendeten sie sehr tiefe Faltungs-Neuronale Netze für den Teil "Intuition". Darüber hinaus ist das gesamte Modell datengesteuert, da es zuerst in menschlichen Expertenbewegungen geschult wurde (dies könnte in Anwendungen in vielen anderen Bereichen außer dem Spielen nützlich sein). Wenn Sie jede einzelne Komponente untersuchen, gibt es nichts Neues ... aber der gesamte Prozess, um all diese Elemente effektiv zu kombinieren und in diesem komplexen Bereich die Meisterschaft zu erlangen, ist etwas Neues. Ich hoffe es hilft!