Der AlphaGo Zero- Artikel aus der Natur , "Das Spiel ohne menschliches Wissen meistern", behauptet vier Hauptunterschiede zur früheren Version:
- Nur zum Selbstlernen (nicht für menschliche Spiele ausgebildet)
- Verwenden Sie nur das Brett und die Steine als Eingabe (keine handgeschriebenen Merkmale).
- Verwenden eines einzelnen neuronalen Netzwerks für Richtlinien und Werte
- Ein neuer Baumsuchalgorithmus, der dieses kombinierte Richtlinien- / Wertnetzwerk verwendet, um zu bestimmen, wo nach guten Zügen gesucht werden soll.
Die Punkte (1) und (2) sind nicht neu im Reinforcement-Lernen, verbessern jedoch die vorherige AlphaGo- Software, wie in den Kommentaren zu Ihrer Frage angegeben. Es bedeutet nur, dass sie jetzt reines Reinforcement Learning verwenden, beginnend mit zufällig initialisierten Gewichten. Dies wird durch bessere, schnellere Lernalgorithmen ermöglicht.
Ihre Behauptung lautet hier: "Unser Hauptbeitrag besteht darin, zu zeigen, dass übermenschliche Leistung ohne Wissen über den menschlichen Bereich erreicht werden kann." (S. 22).
Die Punkte (3) und (4) sind insofern neu, als ihr Algorithmus einfacher und allgemeiner ist als ihr vorheriger Ansatz. Sie erwähnen auch, dass dies eine Verbesserung gegenüber früheren Arbeiten von Guo et al.
Durch die Vereinheitlichung des Richtlinien- / Wertnetzwerks (3) können sie eine effizientere Variante der Monte-Carlo-Baumsuche implementieren, um nach guten Bewegungen zu suchen, und gleichzeitig den Suchbaum verwenden, um das Netzwerk schneller zu trainieren (4). Das ist sehr mächtig.
Darüber hinaus beschreiben sie eine Reihe interessanter Implementierungsdetails wie das Stapeln und Wiederverwenden von Datenstrukturen, um die Suche nach neuen Zügen zu optimieren.
Der Effekt ist, dass es weniger Rechenleistung benötigt und auf 4 TPUs anstatt auf 176 GPUs und 48 TPUs für frühere Versionen ihrer Software ausgeführt wird.
Dies macht es definitiv "neuartig" im Kontext von Go-Software. Ich glaube, dass (3) und (4) in einem breiteren Kontext auch "neuartig" sind und in anderen Bereichen des Reinforcement Learning wie z . B. Robotik anwendbar sein werden .