Ich werde es versuchen und ich hoffe es gefällt euch! Es gibt einige Formeln, vor denen Sie Angst haben könnten. Das hoffe ich nicht, denn ich werde mein Bestes tun, um sie so einfach wie möglich zu erklären.
Dies sind die beiden Formeln:
- P( r | θ , a , x )
- P( θ | D )
TL; DR
Mit Thompson Sampling können Sie
- Wählen Sie einen zufälligen Modellparameter aus allen Modellparametern, die Sie für möglich halten.
- Handeln Sie einmal gemäß diesem bestimmten Modellparameter.
- Beobachten Sie die Belohnung, die Sie mit diesem bestimmten Modellparameter erhalten.
- Lernen Sie aus dieser neuen Erfahrung und aktualisieren Sie Ihre Überzeugung über die möglichen Modellparameter.
Wahrscheinlichkeit??
reinx
Was ist mit diesem seltsamen Kreis?
Wie Sie vielleicht bemerkt haben, habe ich nichts über diesen seltsamen Kreis geschrieben θdas heißt Theta. (Mathematiker haben die Angewohnheit, mit griechischen Buchstaben anzugeben, welche Teile am schwierigsten sind, was das Verständnis noch erschwert.) Diesθrepräsentiert den Modellparameter. Diese Parameter werden verwendet, wenn die Beziehung zwischen Kontext + Aktionen und Belohnung schwieriger ist. Ein Modellparameter könnte beispielsweise sein, wie viel Ihre Belohnung sinkt, wenn 1 mm Regen auf Ihren Kopf fällt. Ein anderer Modellparameter gibt möglicherweise an, wie viel Ihre Belohnung sinkt, wenn Sie einen Regenschirm mitnehmen. Ich habe nur gesagt, dass die Wahrscheinlichkeit das Wesentliche ist, was Sie verstehen wollen. und von zentraler Bedeutung für die Wahrscheinlichkeit sind die Modellparameter. Wenn Sie die Modellparameter kennenθSie wissen, wie Kontext + Aktionen mit Belohnung zusammenhängen, und es ist einfach, optimal zu handeln.
Wie können wir diese Modellparameter so kennenlernen, dass ich die maximale Belohnung bekomme?
Das ist die wesentliche Frage für das mehrarmige Banditenproblem. Eigentlich besteht es aus zwei Teilen. Sie möchten die Modellparameter genau kennenlernen, indem Sie alle Arten von Aktionen in verschiedenen Kontexten untersuchen. Wenn Sie jedoch bereits wissen, welche Aktion für einen bestimmten Kontext geeignet ist, möchten Sie diese Aktion ausnutzen und so viel Belohnung wie möglich erhalten. Wenn Sie sich über Ihre Modellparameter nicht sicher sindθVielleicht möchten Sie etwas mehr erforschen. Wenn Sie sich über unsere Modellparameter ziemlich sicher sindθSie sind sich auch ziemlich sicher, welche Aktion Sie durchführen sollen. Dies wird als Kompromiss zwischen Exploration und Ausbeutung bezeichnet.
Sie haben nichts über diesen posterior gesagt
Der Schlüssel zu diesem optimalen Verhalten ist Ihre (Un) Sicherheit bezüglich der Modellparameter θ. Und der Hintere sagt genau das: In Anbetracht der vorherigen Belohnungen, die wir aus früheren Aktionen in früheren Kontexten erhalten haben, wie viel wissen Sie darüberθ. Wenn Sie zum Beispiel noch nie draußen waren, wissen Sie nicht, wie unglücklich Sie sind, wenn Regen auf Ihren Kopf fällt. Mit anderen Worten, Sie sind sehr unsicher in Bezug auf den Modellparameter "Unglück bei Regen auf dem Kopf". Wenn es manchmal geregnet hat, mit und ohne Regenschirm, können Sie anfangen, etwas über diesen undurchsichtigen Modellparameter zu lernen.
Was schlägt Thomson Sampling mit all diesen Unsicherheiten vor?
Thomson Sampling schlägt etwas sehr Einfaches vor: Wählen Sie einfach einen zufälligen Modellparameter aus Ihrem posterioren Bereich aus, ergreifen Sie eine Aktion und beobachten Sie, was passiert. Wenn Sie zum Beispiel noch nie zuvor draußen waren, kann der Parameter "Unglück, wenn Regen auf dem Kopf" beliebig sein. Also wählen wir einfach eine aus, wir gehen davon aus, dass wir wirklich unglücklich werden, wenn Regen auf unseren Kopf fällt. Wir sehen, dass es regnet (Kontext), also nehmen wir einen Regenschirm (Aktion), weil unser Modellparameter uns sagt, dass wir auf diese Weise die maximale Belohnung erhalten können. Und tatsächlich merkt man, dass man etwas mürrisch wird, wenn man mit einem Regenschirm im Regen läuft, aber nicht wirklich unglücklich ist. Wir lernen daraus, dass Regen + Regenschirm mürrisch ist. Wenn es das nächste Mal regnet, nimmst du wieder einen zufälligen Glauben an, was passiert, wenn Regen auf deinen Kopf fällt. Diesmal könnte es sein, dass es dich überhaupt nicht stört. Jedoch, Sobald Sie auf halbem Weg zu Ihrem Ziel angekommen sind, werden Sie nass und Sie lernen, dass Regen ohne Regenschirm wirklich sehr, sehr schlimm ist. Dies verringert Ihre Unsicherheit über das Unglück, wenn es auf dem Kopf regnet, denn jetzt wissen Sie, dass es wahrscheinlich hoch ist.
Das klingt so einfach!
Ja, es ist nicht so komplex. Der schwierige Teil ist die Stichprobe aus einem Modellparameter posterior. Es ist schwierig, eine Verteilung über alle Modellparameter zu erhalten und aufrechtzuerhalten, die auch für Ihr spezifisches Problem geeignet ist. Aber ... es ist definitiv machbar :).