In den Artikeln AlphaGo Zero und AlphaZero von DeepMind beschreiben sie das Hinzufügen von Dirichlet- Rauschen zu den vorherigen Wahrscheinlichkeiten von Aktionen vom Wurzelknoten (Board-Status) in der Monte-Carlo-Baumsuche:
Weitere Explorations wird erreicht durch Zugabe von Dirichlet Rauschen zu den vorherigen Wahrscheinlichkeiten in dem Wurzelknoten , insbesondere , wo und ; Dieses Rauschen stellt sicher, dass alle Bewegungen versucht werden können, die Suche jedoch möglicherweise schlechte Bewegungen außer Kraft setzt.
(AlphaGo Zero)
Und:
Dirichlet-Rauschen wurde zu den vorherigen Wahrscheinlichkeiten im Wurzelknoten hinzugefügt; Dies wurde umgekehrt proportional zur ungefähren Anzahl von legalen Bewegungen in einer typischen Position auf einen Wert von skaliert für Schach, Shogi und Go.
(AlphaZero)
Zwei Dinge, die ich nicht verstehe:
P(s, a)
ist ein dimensionaler Vektor. Ist Abkürzung für die Dirichlet-Verteilung mit Parametern mit dem Wert ?Ich bin Dirichlet nur als Konjugat vor der multinomialen Verteilung begegnet. Warum wurde es hier gepflückt?
Der Kontext P(s, a)
ist nur eine Komponente der PUCT-Berechnung (Polynom Upper Confidence Tree, eine Variante der oberen Konfidenzgrenzen) für einen bestimmten Zustand / eine bestimmte Aktion. Es wird durch eine Konstante und eine Metrik skaliert, wie oft die angegebene Aktion während des MCTS unter ihren Geschwistern ausgewählt und zum geschätzten Aktionswert hinzugefügt wurde Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- .