Ich habe bereits eine funktionierende -Implementierung für einen einzelnen Agenten, der an einem dynamischen Preisproblem mit dem Ziel der Maximierung des Umsatzes arbeitet. Das Problem, mit dem ich arbeite, betrifft jedoch mehrere verschiedene Produkte, die sich gegenseitig ersetzen. Daher scheint es falsch, sie alle mit unabhängigen Lernenden dynamisch zu bewerten, da der Preis des einen die Belohnung des anderen beeinflusst. Das Ziel wäre es, sie alle dynamisch zu bewerten, um die Summe jedes einzelnen Umsatzes zu maximieren.
Ich habe einige Nachforschungen angestellt, um zu versuchen, etwas zu finden, das das Lernen von Verstärkung auf diese Weise anwendet, aber viele Multi-Agent-Implementierungen, die ich gefunden habe, konzentrieren sich mehr auf Wettbewerbsspiele als auf kooperative, oder sie setzen unvollständiges Wissen über andere Agenten voraus (ich hätte es vollständig gemacht) Kenntnis jedes Agenten in diesem Szenario). Gibt es auf diese Weise gut recherchierte / dokumentierte Anwendungen des kooperativen Lernens?