Was ist die Neuheit in AlphaGo, dem Go-Spielsystem von Google Deepmind?

7

Kürzlich Forscher bei Google Deepmind veröffentlichten ein Papier , in dem sie ein Go Spielsystem beschrieben, das die besten aktuellen Computerprogramme und die menschlichen Europameister schlagen.

Ich habe mir dieses Papier kurz angesehen und es scheint, dass es viele interessante Ideen aus früheren Papieren verwendet. Was haben sie anders gemacht, um diese spektakuläre Verbesserung zu erreichen?

reinforcement-learning

— Valentas
quelle

1

Go-Play-Programme hatten mit maschinellen Lerntechniken seit einigen Jahren leise Neuland betreten. Das Google-Team hat es weiter vorangetrieben, aber die Verbesserung ist IMO nicht so radikal, wie es scheint (viele Leute werden es mit dem "allgemeinen Wissen" von vor 10 Jahren vergleichen, dass Go für Computer zu schwer war). Zum Beispiel haben einige Go-Playing-Programme den Google-Player beim Testen geschlagen. Sehen Sie sich auch den Fortschritt auf der Wikipedia-Seite an: en.wikipedia.org/wiki/Computer_Go#2000s . . .

— Neil Slater

6

Die vor AlphaGo bestehenden Programme basierten auf:

1) Convolutional Neural Networks (CNN), trainiert in einer Datenbank vorhandener Spiele.

ODER

2) Monte-Carlo-Baumsuche (MCTS)

AlphaGo basiert auf einer Kombination von:

A) Verstärkung des Lernens: Trainieren Sie Netzwerke, indem Sie Versionen von CNNs (siehe oben) gegeneinander spielen lassen.

UND

B) MCTS unter Verwendung von Bewegungen, die durch Schritt A) erzeugt wurden

Darüber hinaus wurde die Leistung durch die Verwendung von verteiltem Computing mit großen Mengen an CPUs und GPUs noch weiter verbessert.

Die Neuheit war also die Kombination der obigen Techniken A) und B).

— Rolf Schorpion
quelle

Ich kenne CNN-Programme, die vor AlphaGo existierten, nicht wirklich. Hast du beispiele CNNs, wie Sie sie in (A) beschreiben, sind lediglich ein Ersatz für herkömmliche Modelle des maschinellen Lernens, um dasselbe zu tun. (B) wurde auch genau so gemacht, wie Sie es in früheren Motoren beschrieben haben, daher sind keine dieser Neuheiten. Die Neuheit besteht einfach darin, CNNs anstelle alter Modelle des maschinellen Lernens im bestehenden Rahmen der Monte-Carlo-Baumsuche anzuwenden.

— Imran

@Neil Slater +1. Ich habe meine Antwort bearbeitet, um die Kombination beider Techniken stärker hervorzuheben. Vielen Dank.

— Rolf Schorpion

1

Nichts in den von ihnen verwendeten Komponenten ist neu. Alle Ansätze wurden untersucht. Wenn Sie ihre Referenzen überprüfen, werden Sie feststellen, dass viele Forscher ähnliche Arbeiten ausführen. Die Neuheit war die Pipeline, der sie folgten, und die Kombination von modellfreien und modellbasierten Reinforcement Learning-Ansätzen. Ich werde versuchen, Ihnen eine nicht technisch andere Perspektive auf das zu geben, was sie aufgenommen haben.

Modellfreie Ansätze versuchen normalerweise, Funktionen wie Wertfunktionen (die darstellen, wie gut es ist, in einem bestimmten Zustand zu sein - Board-Konfiguration - in Bezug auf die zukünftige Belohnung) oder parametrisierte Richtlinienfunktionen (Wahrscheinlichkeiten für die Auswahl einer Aktion in einem bestimmten Zustand) zu approximieren Ihr Modell erhält eine Art " Intuition ", bei der Züge relativ gut sind - etwas Ähnliches wie die Intuition, die professionelle Go-Spieler haben, wenn sie erklären, dass sie einen Zug machen, weil er sich "gut anfühlt". Dies ist in der frühen Phase sehr wichtig des Spiels, wenn die Planung ineffizient zu verwenden ist.

Modellbasierte Ansätze versuchen, jede einzelne mögliche Flugbahn des Spiels in Form eines Entscheidungsbaums zu simulieren. Daher sind sie nützlich für die Planung (bevor Sie tatsächlich einen Zug im Spiel machen, überprüfen und bewerten Sie alle möglichen Eventualitäten und entscheiden dann, welchen Zug Sie von Ihrer aktuellen Position aus nehmen möchten). Das MCTS ist ein solcher Algorithmus, erstellt aus der aktuellen Brettposition einen Entscheidungsbaum über mögliche zukünftige Spielverläufe und bewertet diese Heuristiken nach bestimmten Kriterien. Die besten Algorithmen in Go basierten bisher auf diesem Algorithmus (und werden als RL-Algorithmus betrachtet).

In Bezug auf Neuheit mit wenigen Worten: Kombination von Planung und Intuition, dh Kombination des MCTS-Algorithmus mit Funktionsapproximatoren zur Bewertung der simulierten Spielverläufe. In diesem Fall verwendeten sie sehr tiefe Faltungs-Neuronale Netze für den Teil "Intuition". Darüber hinaus ist das gesamte Modell datengesteuert, da es zuerst in menschlichen Expertenbewegungen geschult wurde (dies könnte in Anwendungen in vielen anderen Bereichen außer dem Spielen nützlich sein). Wenn Sie jede einzelne Komponente untersuchen, gibt es nichts Neues ... aber der gesamte Prozess, um all diese Elemente effektiv zu kombinieren und in diesem komplexen Bereich die Meisterschaft zu erlangen, ist etwas Neues. Ich hoffe es hilft!

— Constantinos
quelle