我正在阅读以下关于上下文强盗问题的时代贪婪算法的论文。我有两个问题
http://hunch.net/~jl/projects/interactive/sidebandits/bandit.pdf
我不确定他们是如何使用第 6 页的 Bernstein 不等式得出结论的. 有人可以详细说明一下,因为似乎伯恩斯坦不等式似乎衡量了随机变量总和与其均值的偏差。遗憾的界限在哪里被定义为从绝对最佳策略到经验最佳策略的预期遗憾。有人可以填写详细信息吗?
我们能得到任何合理的估计常数吗如果我要尝试在实践中实现这一点?
我真的很感激任何帮助,谢谢。