MDP 是对上下文强盗的严格概括,增加了时间步长和状态转换,以及作为代理性能衡量标准的回报的概念。
因此,RL 中用于解决 MDP 的方法将用于解决上下文强盗。您可以将上下文老虎机视为一系列 1 步情节(随机选择开始状态),也可以将其视为折扣因子为零的连续问题。
我可以将 DQN 算法与 TD Target 一起使用,仅观察到的奖励而不是奖励加上下一个状态的预测值吗?
是的。这在数学上与零折扣或 1 步剧集相同。
我可以使用策略梯度算法,例如 REINFORCE 或 A2C 吗?如果是,我应该使用基线吗?这个基线应该是什么?
是的。一旦转换为 MDP,您就可以像往常一样在这些算法中使用相同的基线(A2C 使用优势而不是行动价值已经是基线)。通常,添加基线可以帮助减少方差,因此在将 RL 应用于上下文老虎机问题时,它仍然可能会有所帮助。
我在文献中看到有一些针对上下文强盗的算法,例如 LinUCB、LinRel、NeuralBandit 等。我想知道为什么在 MDP 设置中似乎运行良好的 DQN、A2C 和 REINFORCE 算法没有用于上下文强盗
使用 RL 技术不能更频繁地解决上下文老虎机问题有几个原因:
上下文强盗的目标通常集中在创建一个高效的在线学习者,以最大限度地减少遗憾。遗憾是始终利用最佳行动选择与找到它所需的探索之间总回报的长期差异。一些 RL 求解器 - 例如 DQN - 在这个指标上很差。
可以在算法设计中使用时间步长和状态转换的缺乏来提高效率。
旨在帮助解决稀疏奖励和 MDP 中的分配问题的 RL 方法的改进对于上下文强盗来说毫无意义,并且可能是浪费甚至适得其反。
一些 RL 算法确实解析为与它们的上下文强盗算法几乎相同,并且具有相同的性能特征,例如 1-step episodes 的基线 REINFORCE 本质上是Contextual Gradient Bandit 算法。
同样值得注意的是,上下文强盗算法表现良好的许多问题领域(例如网站推荐和广告)的研究表明,更复杂的 MDP 模型和类似 RL 的方法可以做得更好。尽管这与您的问题不太一样,但它通常意味着扩展模型,以便时间步长和状态转换有意义。