我可以在上下文老虎机设置中应用 DQN 或策略梯度算法吗?

人工智能 强化学习 dqn 演员批评方法 加强 上下文强盗
2021-10-29 16:01:41

我有一个问题,我认为可以将其描述为上下文强盗。

更具体地说,在每一轮中,我从由五个连续特征组成的环境中观察一个上下文,并且根据上下文,我必须从十个可用动作中选择一个。这些操作不会影响下一个上下文。

基于以上,我有以下问题:

  1. 这是一个上下文强盗还是折扣为零(一步 RL)的 MDP?我读过,在上下文强盗中,我们为每个动作收到不同的上下文,我有点困惑。

  2. 我可以将 DQN 算法与 TD Target 一起使用,仅观察到的奖励而不是奖励加上下一个状态的预测值吗?

  3. 我可以使用策略梯度算法,例如 REINFORCE 或 A2C 吗?如果是,我应该使用基线吗?这个基线应该是什么?

  4. 我在文献中看到有一些针对上下文强盗的算法,例如 LinUCB、LinRel、NeuralBandit 等。我想知道为什么在 MDP 设置中似乎运行良好的 DQN、A2C 和 REINFORCE 算法没有用于考虑到这个问题可以描述为折扣为零的 MDP,上下文强盗?

1个回答

MDP 是对上下文强盗的严格概括,增加了时间步长和状态转换,以及作为代理性能衡量标准的回报的概念。

因此,RL 中用于解决 MDP 的方法将用于解决上下文强盗。您可以将上下文老虎机视为一系列 1 步情节(随机选择开始状态),也可以将其视为折扣因子为零的连续问题。

我可以将 DQN 算法与 TD Target 一起使用,仅观察到的奖励而不是奖励加上下一个状态的预测值吗?

是的。这在数学上与零折扣或 1 步剧集相同。

我可以使用策略梯度算法,例如 REINFORCE 或 A2C 吗?如果是,我应该使用基线吗?这个基线应该是什么?

是的。一旦转换为 MDP,您就可以像往常一样在这些算法中使用相同的基线(A2C 使用优势而不是行动价值已经是基线)。通常,添加基线可以帮助减少方差,因此在将 RL 应用于上下文老虎机问题时,它仍然可能会有所帮助。

我在文献中看到有一些针对上下文强盗的算法,例如 LinUCB、LinRel、NeuralBandit 等。我想知道为什么在 MDP 设置中似乎运行良好的 DQN、A2C 和 REINFORCE 算法没有用于上下文强盗

使用 RL 技术不能更频繁地解决上下文老虎机问题有几个原因:

  • 上下文强盗的目标通常集中在创建一个高效的在线学习者,以最大限度地减少遗憾遗憾是始终利用最佳行动选择与找到它所需的探索之间总回报的长期差异。一些 RL 求解器 - 例如 DQN - 在这个指标上很差。

  • 可以在算法设计中使用时间步长和状态转换的缺乏来提高效率。

  • 旨在帮助解决稀疏奖励和 MDP 中的分配问题的 RL 方法的改进对于上下文强盗来说毫无意义,并且可能是浪费甚至适得其反。

一些 RL 算法确实解析为与它们的上下文强盗算法几乎相同,并且具有相同的性能特征,例如 1-step episodes 的基线 REINFORCE 本质上是Contextual Gradient Bandit 算法

同样值得注意的是,上下文强盗算法表现良好的许多问题领域(例如网站推荐和广告)的研究表明,更复杂的 MDP 模型和类似 RL 的方法可以做得更好。尽管这与您的问题不太一样,但它通常意味着扩展模型,以便时间步长和状态转换有意义。