我对上限的可视化有点困惑(遵循 (cf Sutton & Barto (2018)的符号)
在许多关于 UCB(1) 算法的博客文章中,如下图所示 (cf Link ):
上界(置信度)是否只是单边置信区间的上限,而不是上图所示的双边置信区间?在这种情况下,区间的下限完全没用,还是我错了?
我对上限的可视化有点困惑(遵循 (cf Sutton & Barto (2018)的符号)
在许多关于 UCB(1) 算法的博客文章中,如下图所示 (cf Link ):
上界(置信度)是否只是单边置信区间的上限,而不是上图所示的双边置信区间?在这种情况下,区间的下限完全没用,还是我错了?
此处使用的上限源自Hoeffding 不等式,它提供了一个对称的两侧置信区间。可以在此处找到有关如何推导出 UCB 中用于土匪的这种界限的一对很好的博客文章:
实际上,在将这个 UCB 用于土匪时,我们实际上并不关心下限。我们只需要为探索机制找到的上层。但是下界仍然存在,即使我们不使用它。