在文献中,至少有两种与 UCB1 的行动选择策略/政策相关的行动选择策略。例如,在论文Algorithms for the multi-armed bandit problem (2000/2014) 中,在时间步,使用以下公式选择一个动作
- 是对 arm 的预期回报的估计
- 是动作的次数被选中
- 是武器/动作的数量
另一方面,Sutton & Barto(本书第 2 版)提供了一个稍微不同的公式(公式 2.10)
为什么我们有这两个公式?我想两者都是“置信上限”(并且在这两种情况下,它们都是常数,尽管一个是超参数),但是为什么(以及何时)我们会使用一个而不是另一个?它们不等价,因为只需要大于,即它可以任意大(尽管在提到的书中,作者使用在一个实验/图中)。如果,那么它们是相同的。
我的问题的答案可能可以在介绍 UCB1 的原始论文中找到(它实际上将 UCB1 定义为),或者在导出界限的论文中,从某种意义上说界限可能取决于一些错误概率,但我还没有完全阅读它,所以,如果你知道答案,请随意导出两个界限并关联两个公式。