Ich kämpfe darum, den Unterschied zwischen Schauspieler-Kritiker und Vorteil-Schauspieler-Kritiker zu verstehen.
Zumindest weiß ich, dass sie sich von A3C (Asynchronous Advantage Actor-Critical) unterscheiden, da A3C einen asynchronen Mechanismus hinzufügt, der mehrere Worker-Agenten verwendet, die mit ihrer eigenen Kopie der Umgebung interagieren, und den Gradienten an den globalen Agenten meldet.
Aber was ist der Unterschied zwischen dem Schauspieler-Kritiker und dem Vorteils-Schauspieler-Kritiker (A2C)? Ist es einfach mit oder ohne Vorteilsfunktion ? Aber hat der Schauspieler-Kritiker dann eine andere Implementierung als die Verwendung der Vorteilsfunktion?
Oder sind sie vielleicht Synonyme und Schauspieler-Kritiker ist nur eine Abkürzung für A2C?