Kooperatives Reinforcement Learning

10

Ich habe bereits eine funktionierende -Implementierung für einen einzelnen Agenten, der an einem dynamischen Preisproblem mit dem Ziel der Maximierung des Umsatzes arbeitet. Das Problem, mit dem ich arbeite, betrifft jedoch mehrere verschiedene Produkte, die sich gegenseitig ersetzen. Daher scheint es falsch, sie alle mit unabhängigen Lernenden dynamisch zu bewerten, da der Preis des einen die Belohnung des anderen beeinflusst. Das Ziel wäre es, sie alle dynamisch zu bewerten, um die Summe jedes einzelnen Umsatzes zu maximieren. $Q(\lambda)$

Ich habe einige Nachforschungen angestellt, um zu versuchen, etwas zu finden, das das Lernen von Verstärkung auf diese Weise anwendet, aber viele Multi-Agent-Implementierungen, die ich gefunden habe, konzentrieren sich mehr auf Wettbewerbsspiele als auf kooperative, oder sie setzen unvollständiges Wissen über andere Agenten voraus (ich hätte es vollständig gemacht) Kenntnis jedes Agenten in diesem Szenario). Gibt es auf diese Weise gut recherchierte / dokumentierte Anwendungen des kooperativen Lernens?

machine-learning reinforcement-learning

— user3704120
quelle

1

Sie können dieses Papier sehen. Der erste hängt ganz mit Ihrer Aufgabe zusammen.
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
quelle

0

Alles in allem versuchen Sie, die Pareto-Effizienz zu erreichen.

Um es kooperativ zu machen, müssen Sie eine einzelne Belohnungsfunktion definieren , die von allen Spielern gemeinsam genutzt wird (es kann sich um eine Funktion handeln, die auf irgendeine Weise einzelne Belohnungsfunktionen kombiniert).

Irgendwie müssen Sie die Belohnungen, die Sie von einem Produkt erhalten, in Bezug auf die anderen abwägen.

— Juan Leni
quelle