Ich möchte eine KI erstellen, die Five-in-A-Row / Gomoku spielen kann. Wie ich bereits im Titel erwähnt habe, möchte ich dafür das verstärkende Lernen verwenden.
Ich verwende die Policy-Gradient- Methode, nämlich REINFORCE, mit Baseline. Für die Näherung von Wert und Richtlinienfunktion verwende ich ein neuronales Netz . Es hat Faltungsschichten und vollständig verbundene Schichten. Mit Ausnahme der Ausgabe werden alle Ebenen gemeinsam genutzt. Die Ausgabeebene der Richtlinie enthält die Ausgabeeinheit (die Größe der Karte ) und den Softmax . Es ist also stochastisch. Was aber, wenn das Netzwerk eine sehr hohe Wahrscheinlichkeit für einen ungültigen Zug erzeugt? Ein ungültiger Zug liegt vor, wenn der Agent ein Feld mit einem "X" oder "O" überprüfen möchte. Ich denke, es kann in diesem Spielzustand stecken bleiben.
Könnten Sie eine Lösung für dieses Problem empfehlen?
Ich vermute, die Schauspieler-Kritik- Methode zu verwenden. Für einen ungültigen Zug sollten wir eine negative Belohnung geben und den Zug an den Gegner weitergeben.