Ich habe über eine Reihe von Algorithmen zur Lösung von Problemen mit n-bewaffneten Banditen wie -greedy, Softmax und UCB1 gelesen, habe jedoch einige Probleme, herauszufinden, welcher Ansatz zur Minimierung von Bedauern am besten geeignet ist.
Gibt es einen bekannten optimalen Algorithmus zur Lösung des n-bewaffneten Banditenproblems? Gibt es eine Auswahl an Algorithmen, die in der Praxis am besten zu funktionieren scheinen?