人工智能 - 在 UCB 中，实际上限是单边置信区间还是双边置信区间的上限？ - 吾爱随笔录

人工智能机器学习强化学习多臂强盗置信上限

2021-11-15 10:01:24

我对上限的可视化有点困惑（遵循 (cf Sutton & Barto (2018)的符号）

Q_{t} (a) + C \sqrt{\frac{l n (t)}{N_{t} (a)}}

$Q_t(a)+C\sqrt{\frac{\mathrm{ln}(t)}{N_t(a)}}$

在许多关于 UCB(1) 算法的博客文章中，如下图所示 (cf Link )：

上界（置信度）是否只是单边置信区间的上限，而不是上图所示的双边置信区间？在这种情况下，区间的下限完全没用，还是我错了？

1个回答

此处使用的上限源自Hoeffding 不等式，它提供了一个对称的两侧置信区间。可以在此处找到有关如何推导出 UCB 中用于土匪的这种界限的一对很好的博客文章：

实际上，在将这个 UCB 用于土匪时，我们实际上并不关心下限。我们只需要为探索机制找到的上层。但是下界仍然存在，即使我们不使用它。

其它你可能感兴趣的问题