Ich bin kein Fachmann auf diesem Gebiet, und meine Frage ist wahrscheinlich sehr naiv. Es geht aus einem Aufsatz hervor, in dem die Möglichkeiten und Grenzen des Lernens zur Stärkung, wie sie im AlphaGo-Programm verwendet werden, erläutert werden.
Das Programm AlphaGo wurde unter anderem mit Hilfe von neuronalen Netzen (Monte-Carlo-Erforschung von Bäumen usw.) erstellt, die aus einer riesigen Datenbank von Go-Spielen von Menschen trainiert werden und die dann durch das Spielen von Versionen der Go-Netze verstärkt werden Programm gegen sich selbst oft.
Nun frage ich mich, was passieren würde, wenn wir versuchen würden, ein solches Programm ohne menschliche Datenbank zu erstellen, dh mit einem Grundprogramm von Go zu beginnen, nur Regeln zu kennen und Methoden zu finden, um Bäume zu erforschen, und es zuzulassen, gegen sich selbst zu spielen, um sein neuronales Netzwerk zu verbessern. Werden wir nach vielen Spielen gegen sich selbst zu einem Programm kommen, das mit den besten menschlichen Spielern konkurrieren oder sie schlagen kann? Und wenn ja, wie viele Spiele (in der Größenordnung) wären dafür erforderlich? Oder wird ein solches Programm im Gegenteil zu einem viel schwächeren Spieler konvergieren?
Ich gehe davon aus, dass das Experiment nicht durchgeführt wurde, da AlphaGo so neu ist. Die Antwort kann jedoch für einen Fachmann offensichtlich sein. Andernfalls wird mich jede fundierte Vermutung interessieren.
Die gleiche Frage kann man auch für "einfachere" Spiele stellen. Wenn wir für ein Schachprogramm ungefähr die gleichen Techniken zum Erlernen von Verstärkung verwenden, die auch für AlphaGo verwendet werden, aber keine menschliche Datenbank verwenden, erhalten wir dann irgendwann ein Programm, das den besten Menschen schlagen kann? Und wenn ja, wie schnell? Wurde das versucht? Oder wenn nicht für Schach, was ist mit Dame oder noch einfacheren Spielen?
Danke vielmals.