为什么我们对 UCB1 有两个相似的动作选择策略?

人工智能 强化学习 政策 萨顿巴托 多臂强盗 置信上限
2021-11-07 11:50:33

在文献中,至少有两种与 UCB1 的行动选择策略/政策相关的行动选择策略。例如,在论文Algorithms for the multi-armed bandit problem (2000/2014) 中,在时间步t,使用以下公式选择一个动作

(1)a(t)argmaxi=1k(μ^i+2lntni),
在哪里

  • μ^i是对 arm 的预期回报的估计i
  • ni是动作的次数i被选中
  • k是武器/动作的数量

另一方面,Sutton & Barto(本书第 2 版)提供了一个稍微不同的公式(公式 2.10)

(2)a(t)argmaxi=1k(μ^i+clntni),
在哪里c>0是一个控制探索量的超参数(如书中或此处所述)。

为什么我们有这两个公式?我想两者都是“置信上限”(并且在这两种情况下,它们都是常数,尽管一个是超参数),但是为什么(以及何时)我们会使用一个而不是另一个?它们不等价,因为c只需要大于0,即它可以任意大(尽管在提到的书中,作者使用c=2在一个实验/图中)。如果c=2,那么它们是相同的。

我的问题的答案可能可以在介绍 UCB1 的原始论文中找到(它实际上将 UCB1 定义为1),或者在导出界限的论文中,从某种意义上说界限可能取决于一些错误概率,但我还没有完全阅读它,所以,如果你知道答案,请随意导出两个界限并关联两个公式。

1个回答

在您链接的 UCB1 原始论文的 PDF 中,在第 242-243 页中,作者证明了为什么非最佳机器的播放次数比最佳机器少得多(实际上,对数更少)。c决定他们是否真的愿意,并且c=2是最小的选择c.

我们想证明非最优机器的运行次数(ni, 对于非最优is,在你的符号中)是渐近对数的。换句话说,您可以运行它们几次,这很好,但不要太频繁。我们正在设计一些指标值ai(t)=μ^i+(ϵ...)这样错误的情况下,非最优值超过最优值(a(t)<ai(t)),被最小化。

想想最后一个不等式。我们知道μ>μi(再次,最优和非最优)。因此,要使该不等式成立,似乎左侧应该很小,或者右侧应该很大可是等等,μ^s 实际上是一些随机试验μ,所以我们不能直接从μ>μiμ^>μi^; 可能我们只是需要更多的试验。

论文的方程(7)、(8)和(9)就是上一段提到的三个条件;左侧小,右侧大,或缺少试验。好吧,事实上,正如我们所说的运行次数......起初是渐近对数的,假设我们已经运行了足够多的机器,可以消除第三种情况(!)。

对于第一种和第二种情况,因为μ^i是某个随机变量的平均值[0,1],我们可以使用 Chernoff–Hoeffding 界(或在论文中所谓的;在 Wikipedia 中表示为Hoeffding 不等式)。现在,一个不错的选择(ϵ...)将保证(从 Hoeffding 的不等式)前两种情况将足够少地发生,或者换句话说,按照t4. 为了实现这一点,我们需要c2.

现在回到第三种情况,足够的运行次数实际上是l=2c2lnn/(μμi)2. 因此,您可以选择更大的c但在惩罚中获得更长的收敛速度。

有趣的是,在作者找到所有证据之后c=1/4收敛得很好并且实际上表现得更好(!!)比c=2. 似乎他们无法像我们上面所做的那样证明界限。