人工智能 - 为什么我们对 UCB1 有两个相似的动作选择策略？ - 吾爱随笔录

为什么我们对 UCB1 有两个相似的动作选择策略？

人工智能强化学习政策萨顿巴托多臂强盗置信上限

2021-11-07 11:50:33

在文献中，至少有两种与 UCB1 的行动选择策略/政策相关的行动选择策略。例如，在论文Algorithms for the multi-armed bandit problem (2000/2014) 中，在时间步 $t$ ，使用以下公式选择一个动作

\begin{matrix} (1) & a^{*} (t) ≐ \arg max_{i = 1 \dots k} ({\hat{μ}}_{i} + \sqrt{\frac{2 \ln t}{n_{i}}}), \end{matrix}

$a^*(t) \doteq \arg \max _{i=1 \ldots k}\left(\hat{\mu}_{i}+\sqrt{\frac{2 \ln t}{n_{i}}}\right) \tag{1}\label{1},$ 在哪里

$\hat{\mu}_{i}$ 是对 arm 的预期回报的估计 $i$
$n_i$ 是动作的次数 $i$ 被选中
$k$ 是武器/动作的数量

另一方面，Sutton & Barto（本书第 2 版）提供了一个稍微不同的公式（公式 2.10）

\begin{matrix} (2) & a^{*} (t) ≐ \arg max_{i = 1 \dots k} ({\hat{μ}}_{i} + c \sqrt{\frac{\ln t}{n_{i}}}), \end{matrix}

$a^*(t) \doteq \arg \max _{i=1 \ldots k}\left(\hat{\mu}_{i}+c\sqrt{\frac{\ln t}{n_{i}}}\right) \tag{2}\label{2},$ 在哪里

c > 0

$c > 0$ 是一个控制探索量的超参数（如书中或此处所述）。

为什么我们有这两个公式？我想两者都是“置信上限”（并且在这两种情况下，它们都是常数，尽管一个是超参数），但是为什么（以及何时）我们会使用一个而不是另一个？它们不等价，因为 $c$ 只需要大于 $0$ ，即它可以任意大（尽管在提到的书中，作者使用 $c=2$ 在一个实验/图中）。如果 $c = \sqrt{2}$ ，那么它们是相同的。

我的问题的答案可能可以在介绍 UCB1 的原始论文中找到（它实际上将 UCB1 定义为 $\ref{1}$ )，或者在导出界限的论文中，从某种意义上说界限可能取决于一些错误概率，但我还没有完全阅读它，所以，如果你知道答案，请随意导出两个界限并关联两个公式。

1个回答

在您链接的 UCB1 原始论文的 PDF 中，在第 242-243 页中，作者证明了为什么非最佳机器的播放次数比最佳机器少得多（实际上，对数更少）。 $c$ 决定他们是否真的愿意，并且 $c=\sqrt{2}$ 是最小的选择 $c$ .

我们想证明非最优机器的运行次数（ $n_i$ , 对于非最优 $i$ s，在你的符号中）是渐近对数的。换句话说，您可以运行它们几次，这很好，但不要太频繁。我们正在设计一些指标值 $a_i(t)=\hat \mu_i+(\epsilon...)$ 这样错误的情况下，非最优值超过最优值（ $a^*(t)<a_i(t)$ )，被最小化。

想想最后一个不等式。我们知道 $\mu^* > \mu_i$ （再次，最优和非最优）。因此，要使该不等式成立，似乎左侧应该很小，或者右侧应该很大。可是等等， $\hat \mu$ s 实际上是一些随机试验 $\mu$ ，所以我们不能直接从 $\mu^* > \mu_i$ 到 $\hat{\mu^*} > \hat{\mu_i}$ ; 可能我们只是需要更多的试验。

论文的方程（7）、（8）和（9）就是上一段提到的三个条件；左侧小，右侧大，或缺少试验。好吧，事实上，正如我们所说的运行次数......起初是渐近对数的，假设我们已经运行了足够多的机器，可以消除第三种情况（！）。

对于第一种和第二种情况，因为 $\hat \mu_i$ 是某个随机变量的平均值 $[0, 1]$ ，我们可以使用 Chernoff–Hoeffding 界（或在论文中所谓的；在 Wikipedia 中表示为Hoeffding 不等式）。现在，一个不错的选择 $(\epsilon ...)$ 将保证（从 Hoeffding 的不等式）前两种情况将足够少地发生，或者换句话说，按照 $t^{-4}$ . 为了实现这一点，我们需要 $c \ge \sqrt 2$ .

现在回到第三种情况，足够的运行次数实际上是 $l = \left \lceil 2 c^2 \ln n / (\mu^* - \mu_i)^2\right \rceil$ . 因此，您可以选择更大的 $c$ 但在惩罚中获得更长的收敛速度。

有趣的是，在作者找到所有证据之后 $c=1/4$ 收敛得很好并且实际上表现得更好（！！）比 $c=\sqrt{2}$ . 似乎他们无法像我们上面所做的那样证明界限。

其它你可能感兴趣的问题

上一篇基于案例的推理是一种机器学习技术吗？下一篇为什么神经网络倾向于被训练来识别多种事物而不仅仅是一个？