上下文强盗的时代贪心算法

数据挖掘 机器学习 统计数据 强化学习 可能性 随机算法
2022-03-06 07:22:41

我正在阅读以下关于上下文强盗问题的时代贪婪算法的论文。我有两个问题

http://hunch.net/~jl/projects/interactive/sidebandits/bandit.pdf

  1. 我不确定他们是如何使用第 6 页的 Bernstein 不等式得出结论的μn(H,1)c1kln(m)/n. 有人可以详细说明一下,因为似乎伯恩斯坦不等式似乎衡量了随机变量总和与其均值的偏差。遗憾的界限在哪里μn(H,1)被定义为从绝对最佳策略到经验最佳策略的预期遗憾。有人可以填写详细信息吗?

  2. 我们能得到任何合理的估计常数吗c如果我要尝试在实践中实现这一点?

我真的很感激任何帮助,谢谢。

0个回答
没有发现任何回复~