我遇到了获得 k 臂老虎机问题的置信上限的公式:
其中是我们对这个特定老虎机拥有的样本数量,是我们从所有老虎机获得的样本总数。蒙特卡洛树搜索也使用相同的算法来获得置信上限。
我非常清楚什么是置信上限,但我不明白这个公式的来源。我试过在网上找几个地方,但找不到这个公式是如何得出的明确解释。有人可以解释这个公式的来源吗?请假设我没有很好的统计学背景。
我遇到了获得 k 臂老虎机问题的置信上限的公式:
其中是我们对这个特定老虎机拥有的样本数量,是我们从所有老虎机获得的样本总数。蒙特卡洛树搜索也使用相同的算法来获得置信上限。
我非常清楚什么是置信上限,但我不明白这个公式的来源。我试过在网上找几个地方,但找不到这个公式是如何得出的明确解释。有人可以解释这个公式的来源吗?请假设我没有很好的统计学背景。
您所拥有的通常称为探索术语。置信上限是经验平均值加上这个探索项。
让我们分别考虑每个术语:
是一个常数,允许用户设置探索/利用权衡。对于理论结果,它通常针对手头的问题进行优化(例如,具有高斯先验的 k 臂老虎机)。
个动作样本后的后验标准差成正比。从本质上讲,这意味着当您更频繁地拉动手臂时,手臂的未知数就会减少。
确保您不会过早停止探索。随着变得非常大,样本方差变得足够小,以至于我们需要进行补偿以确保我们永远不会完全停止探索。大多数技术数学表明是足够的(但不是太多)补偿。
有关更技术性的描述,请参见Auer 等人的论文。是一个很好的起点。
Auer、Peter、Nicolo Cesa-Bianchi 和 Paul Fischer。“多臂老虎机问题的有限时间分析。” 机器学习 47.2-3 (2002): 235-256。
它来自 Hoeffding 不等式,它提供了有界独立随机变量之和偏离其预期值超过一定量的概率的上限。有关 Hoeffding 不等式的更多信息,请参见https://en.wikipedia.org/wiki/Hoeffding%27s_inequality。请参阅原始 UCT 论文中等式 (3) 周围的文本,详细讨论与强盗设置中的 UCB1 相关的详细讨论http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.102.1296