In welchen realen Situationen können wir einen mehrarmigen Banditenalgorithmus verwenden?

15

Multi-Arm-Banditen funktionieren gut in Situationen, in denen Sie die Wahl haben und nicht sicher sind, welche Banditen Ihr Wohlbefinden maximieren. Sie können den Algorithmus für einige reale Situationen verwenden. Lernen kann zum Beispiel ein gutes Feld sein:

Wenn ein Kind Tischlerei lernt und es schlecht darin ist, sagt ihm der Algorithmus, dass er / sie wahrscheinlich weitermachen muss. Wenn er / sie gut darin ist, fordert der Algorithmus ihn / sie auf, dieses Feld weiter zu lernen.

Dating ist auch ein gutes Feld:

Sie sind ein Mann, der große Anstrengungen unternimmt, um eine Frau zu verfolgen. Ihre Bemühungen sind jedoch definitiv unerwünscht. Der Algorithmus sollte Sie "leicht" (oder stark) zum Weitermachen anstoßen.

Für welche andere reale Situation können wir den Mehrarm-Banditen-Algorithmus verwenden?

_{PS: Wenn die Frage zu weit gefasst ist, hinterlassen Sie bitte einen Kommentar. Wenn es einen Konsens gibt, werde ich meine Frage entfernen.}

algorithms reinforcement-learning multiarmed-bandit

— Andy K
quelle

3

Angesichts der Tatsache, dass es (bis jetzt) 3 hochgeladene Antworten gibt, denke ich nicht, dass dies zu weit gefasst ist, um beantwortet zu werden.

— gung - Wiedereinsetzung von Monica

@gung Ich habe mehr Upvotes und trotzdem spiegeln sie sich nicht in meiner Punktzahl wider. Woher?

— Andy K

5

Das liegt daran, dass dieser Thread Community-Wiki (CW), @AndyK, ist. Wenn ein Thread CW ist, erhalten die Leute keinen Ruf durch Upvotes (oder verlieren ihn durch Downvotes). Sie würden jedoch wie gewohnt Abzeichen verdienen. Fragen wie diese, die Listen von Dingen abrufen und bei denen es keine eindeutige, korrekte Antwort gibt, sollten auf SE-Sites nicht zum Thema gehören. Unser Kompromiss (ich glaube, andere Websites tun dies auch) besteht darin, solche Fragen von Fall zu Fall zuzulassen, sie jedoch in den CW-Modus zu versetzen.

— gung - Wiedereinsetzung von Monica

fair genug @gung

— Andy K

1

College-Zulassungen. Auswahl von Metriken zur Auswahl von Empfängern für gespendete Organe.

— EngrStudent - Wiedereinstellung von Monica

8

Wenn Sie die ursprünglichen Pokemon-Spiele (Rot oder Blau und Gelb) spielen und Celadon City erreichen, haben die Team-Raketen-Spielautomaten unterschiedliche Gewinnchancen. Multi-Arm Bandit genau dort, wo Sie das Erreichen dieses Porygons wirklich schnell optimieren möchten.

Im Ernst, die Leute sprechen über das Problem bei der Auswahl von Tuning-Variablen beim maschinellen Lernen. Besonders wenn Sie viele Variablen haben, wird über Exploration und Exploitation gesprochen. Siehe wie Spearmint oder sogar das neue Paper in diesem Thema, das einen supereinfachen Algorithmus zur Auswahl von Stimmparametern verwendet (und andere Techniken für Stimmvariablen weit übertrifft).

— www3
quelle

6

Sie können in einem biomedizinischen Behandlungs- / Forschungsdesign verwendet werden. Ich glaube zum Beispiel, dass Q-Learning- Algorithmen in sequentiellen, mehrfachen und randomisierten Studien ( SMART-Studien ) verwendet werden. Die Idee ist, dass sich das Behandlungsregime optimal an den Fortschritt des Patienten anpasst. Es ist klar, wie dies für einen einzelnen Patienten am besten sein kann, aber es kann auch in randomisierten klinischen Studien effizienter sein.

— gung - Setzen Sie Monica wieder ein
quelle

Danke @gung. Ich wusste nichts über diesen Algorithmus. Ich werde es lesen

— Andy K

6

Sie werden für A / B-Tests von Online-Werbung verwendet, bei denen unterschiedliche Anzeigen für unterschiedliche Nutzer geschaltet werden und auf der Grundlage der Ergebnisse Entscheidungen darüber getroffen werden, welche Anzeigen in Zukunft geschaltet werden sollen. Dies wird in einem guten Artikel von Google-Forscher Steven L. Scott beschrieben .

— Tim
quelle

Vielen Dank @Tim. Ich habe diesen vwo.com/blog/multi-armed-bandit-algorithm

— Andy K

2

Ich habe die gleiche Frage zu Quora gestellt

Hier ist die Antwort

Zuweisung von Mitteln für verschiedene Abteilungen einer Organisation

Auswahl der leistungsstärksten Athleten aus einer Gruppe von Studenten bei begrenzter Zeit und einer willkürlichen Auswahlschwelle

Maximieren der Website-Einnahmen bei gleichzeitigem Testen neuer Funktionen (anstelle von A / B-Tests) Sie können diese jederzeit verwenden, um die Ergebnisse zu optimieren, wenn Sie nicht über genügend Daten verfügen, um ein strenges statistisches Modell zu erstellen.

— Andy K
quelle