Ich bin auf die Formel gestoßen, um die oberen Vertrauensgrenzen für das Problem der k-bewaffneten Banditen zu erreichen:
Dabei ist die Anzahl der Proben, die wir für diesen bestimmten Banditen haben, und die Gesamtmenge der Proben, die wir von allen Banditen haben. Der gleiche Algorithmus wird auch bei der Monte-Carlo-Baumsuche verwendet, um die obere Konfidenzgrenze zu erhalten.N i
Ich verstehe sehr klar, was eine obere Vertrauensgrenze ist, aber ich verstehe nicht, woher diese Formel kommt. Ich habe versucht, an mehreren Stellen online zu suchen, konnte jedoch keine klare Erklärung dafür finden, wie diese Formel abgeleitet wird. Kann jemand bitte erklären, woher diese Formel kommt? Bitte nehmen Sie an, ich habe keinen guten Hintergrund in der Statistik.