数据挖掘 - 上下文强盗的时代贪心算法 - 吾爱随笔录

我正在阅读以下关于上下文强盗问题的时代贪婪算法的论文。我有两个问题

我不确定他们是如何使用第 6 页的 Bernstein 不等式得出结论的 $\mu_{n}(\mathcal{H},1) \leq c^{-1} \sqrt{k \mathrm{ln}(m)/n}$ . 有人可以详细说明一下，因为似乎伯恩斯坦不等式似乎衡量了随机变量总和与其均值的偏差。遗憾的界限在哪里 $\mu_{n}(\mathcal{H},1)$ 被定义为从绝对最佳策略到经验最佳策略的预期遗憾。有人可以填写详细信息吗？
我们能得到任何合理的估计常数吗 $c$ 如果我要尝试在实践中实现这一点？

我真的很感激任何帮助，谢谢。