Nach meinem besten Verständnis ist der Monte-Carlo-Baumsuchalgorithmus (MCTS) eine Alternative zum Minimax für die Suche in einem Knotenbaum. Es funktioniert, indem Sie einen Zug auswählen (im Allgemeinen den mit der höchsten Chance, der Beste zu sein) und dann während des Zuges ein zufälliges Playout durchführen, um das Ergebnis zu sehen. Dieser Vorgang wird für die zugewiesene Zeit fortgesetzt.
Das klingt nicht nach maschinellem Lernen, sondern nach einer Möglichkeit, einen Baum zu durchqueren. Ich habe jedoch gehört, dass AlphaZero MCTS verwendet, daher bin ich verwirrt. Wenn AlphaZero MCTS verwendet, warum lernt AlphaZero dann? Oder hat AlphaZero eine Art maschinelles Lernen durchgeführt, bevor es Spiele gespielt hat, und dann anhand der Intuition, die es durch maschinelles Lernen gewonnen hat, herausgefunden, welche Schritte erforderlich sind, um mehr Zeit mit MCTS zu verbringen?