Die Website für künstliche Intelligenz definiert das Lernen außerhalb der Politik und innerhalb der Politik wie folgt:
"Ein außervertraglicher Lernender lernt den Wert der optimalen Richtlinie unabhängig von den Aktionen des Agenten. Q-Learning ist ein außervertraglicher Lernender. Ein außervertraglicher Lernender lernt den Wert der Richtlinie, die vom Agenten ausgeführt wird, einschließlich der Explorationsschritte . "
Ich möchte Sie diesbezüglich um Klarstellung bitten, da sie für mich keinen Unterschied zu machen scheinen. Beide Definitionen scheinen identisch zu sein. Was ich tatsächlich verstanden habe, ist das modellfreie und modellbasierte Lernen, und ich weiß nicht, ob sie etwas mit den fraglichen zu tun haben.
Wie ist es möglich, dass die optimale Richtlinie unabhängig von den Aktionen des Agenten gelernt wird? Wird die Richtlinie nicht gelernt, wenn der Agent die Aktionen ausführt?