Als «multiarmed-bandit» getaggte Fragen




2
Was ist Thompson Sampling für Laien?
Ich kann Thompson Sampling und seine Funktionsweise nicht verstehen . Ich las über Multi Arm Bandit und nachdem ich den Upper Confidence Bound Algorithmus gelesen hatte, schlugen viele Texte vor, dass Thompson Sampling eine bessere Leistung als UCB erbringt. Was ist Thompson Sampling? Zögern Sie nicht, Referenzartikel zum besseren Verständnis …

1
Optimaler Algorithmus zur Lösung von n-armigen Banditenproblemen?
Ich habe über eine Reihe von Algorithmen zur Lösung von Problemen mit n-bewaffneten Banditen wie -greedy, Softmax und UCB1 gelesen, habe jedoch einige Probleme, herauszufinden, welcher Ansatz zur Minimierung von Bedauern am besten geeignet ist.ϵϵ\epsilon Gibt es einen bekannten optimalen Algorithmus zur Lösung des n-bewaffneten Banditenproblems? Gibt es eine Auswahl …

1
Mehrarmiger Bandit zur allgemeinen Belohnungsverteilung
Ich arbeite an einem mehrarmigen Banditenproblem, bei dem wir keine Informationen über die Belohnungsverteilung haben. Ich habe viele Artikel gefunden, die bedauernde Grenzen für eine Verteilung mit bekannter Bindung und für allgemeine Verteilungen mit Unterstützung in [0,1] garantieren. Ich möchte herausfinden, ob es eine Möglichkeit gibt, in einer Umgebung, in …

2
Oberes Vertrauen in maschinelles Lernen gebunden
Ich bin auf die Formel gestoßen, um die oberen Vertrauensgrenzen für das Problem der k-bewaffneten Banditen zu erreichen: c ln N.ichnich- -- -- -- -- -√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} Dabei ist die Anzahl der Proben, die wir für diesen bestimmten Banditen haben, und die Gesamtmenge der Proben, die wir von allen Banditen …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.