在 UCB 中,实际上限是单边置信区间还是双边置信区间的上限?

人工智能 机器学习 强化学习 多臂强盗 置信上限
2021-11-15 10:01:24

我对上限的可视化有点困惑(遵循 (cf Sutton & Barto (2018)的符号)

Qt(a)+Cln(t)Nt(a)

在许多关于 UCB(1) 算法的博客文章中,如下图所示 (cf Link ):

文本

上界(置信度)是否只是单边置信区间的上限,而不是上图所示的双边置信区间?在这种情况下,区间的下限完全没用,还是我错了?

1个回答

此处使用的上限源自Hoeffding 不等式,它提供了一个对称的两侧置信区间。可以在此处找到有关如何推导出 UCB 中用于土匪的这种界限的一对很好的博客文章:

  1. 第一步:探索-然后-提交
  2. 上置信界算法

实际上,在将这个 UCB 用于土匪时,我们实际上并不关心下限。我们只需要为探​​索机制找到的上层。但是下界仍然存在,即使我们不使用它。