Statistiken und Big Data multiarmed-bandit

3

Der bekannteste Algorithmus für Banditen ist der Upper Confidence Bound (UCB), der diese Klasse von Algorithmen bekannt gemacht hat. Seitdem gehe ich davon aus, dass es jetzt bessere Algorithmen gibt. Was ist der derzeit beste Algorithmus (in Bezug auf empirische Leistung oder theoretische Grenzen)? Ist dieser Algorithmus in gewissem Sinne …

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

4

In welchen realen Situationen können wir einen mehrarmigen Banditenalgorithmus verwenden?

Multi-Arm-Banditen funktionieren gut in Situationen, in denen Sie die Wahl haben und nicht sicher sind, welche Banditen Ihr Wohlbefinden maximieren. Sie können den Algorithmus für einige reale Situationen verwenden. Lernen kann zum Beispiel ein gutes Feld sein: Wenn ein Kind Tischlerei lernt und es schlecht darin ist, sagt ihm der …

15 algorithms reinforcement-learning multiarmed-bandit

1

Kostenfunktionen für kontextbezogene Banditen

Ich benutze Vowpal Wabbit , um ein kontextuelles Banditenproblem zu lösen . Ich zeige den Nutzern Anzeigen und habe einiges an Informationen über den Kontext, in dem die Anzeige geschaltet wird (z. B. wer der Nutzer ist, auf welcher Website er sich befindet usw.). Dies scheint ein ziemlich klassisches kontextuelles …

14 multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

2

Was ist Thompson Sampling für Laien?

Ich kann Thompson Sampling und seine Funktionsweise nicht verstehen . Ich las über Multi Arm Bandit und nachdem ich den Upper Confidence Bound Algorithmus gelesen hatte, schlugen viele Texte vor, dass Thompson Sampling eine bessere Leistung als UCB erbringt. Was ist Thompson Sampling? Zögern Sie nicht, Referenzartikel zum besseren Verständnis …

14 machine-learning definition multiarmed-bandit

1

Optimaler Algorithmus zur Lösung von n-armigen Banditenproblemen?

Ich habe über eine Reihe von Algorithmen zur Lösung von Problemen mit n-bewaffneten Banditen wie -greedy, Softmax und UCB1 gelesen, habe jedoch einige Probleme, herauszufinden, welcher Ansatz zur Minimierung von Bedauern am besten geeignet ist.ϵϵ\epsilon Gibt es einen bekannten optimalen Algorithmus zur Lösung des n-bewaffneten Banditenproblems? Gibt es eine Auswahl …

13 machine-learning reinforcement-learning multiarmed-bandit

1

Mehrarmiger Bandit zur allgemeinen Belohnungsverteilung

Ich arbeite an einem mehrarmigen Banditenproblem, bei dem wir keine Informationen über die Belohnungsverteilung haben. Ich habe viele Artikel gefunden, die bedauernde Grenzen für eine Verteilung mit bekannter Bindung und für allgemeine Verteilungen mit Unterstützung in [0,1] garantieren. Ich möchte herausfinden, ob es eine Möglichkeit gibt, in einer Umgebung, in …

11 references multiarmed-bandit

2

Oberes Vertrauen in maschinelles Lernen gebunden

Ich bin auf die Formel gestoßen, um die oberen Vertrauensgrenzen für das Problem der k-bewaffneten Banditen zu erreichen: c ln N.ichnich- -- -- -- -- -√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} Dabei ist die Anzahl der Proben, die wir für diesen bestimmten Banditen haben, und die Gesamtmenge der Proben, die wir von allen Banditen …

8 machine-learning mathematical-statistics confidence-interval reinforcement-learning multiarmed-bandit

Als «multiarmed-bandit» getaggte Fragen