您可以将 MDP 问题转换为上下文多臂强盗问题吗?

人工智能 强化学习 比较 马尔可夫决策过程 多臂强盗 上下文强盗
2021-11-11 11:52:42

我试图更好地理解多臂强盗、上下文多臂强盗和马尔可夫决策过程。

基本上,多臂强盗是没有状态(特征/上下文)的上下文多臂强盗的特例。上下文多臂强盗是马尔可夫决策过程的一个特例,其中只有一个状态(特征,但没有转换)。

但是,由于 MDP 具有马尔可夫属性,我想知道如果我们简单地将每个状态视为不同的输入上下文(特征),是否每个 MDP 问题也可以转换为上下文多臂强盗问题?

1个回答

MDP 和上下文老虎机设置之间的主要区别在于时间步长和状态进展。如果这些对您要解决的问题很重要,则无法转换。

本质上,MDP 是对上下文强盗的严格概括。您可以将 CB 建模为 MDP,但反之则不行。

在某些非常特殊的情况下,您可以将 MDP 转换为 CB - 这些情况中的任何一种都意味着可以将 MDP 简化为 CB,然后您可以使用赌博机求解算法对其进行优化:

  • 当一个偶发问题只有一个时间步时。

  • 当折扣因子为零时。

  • 当状态转换规则完全独立于动作选择时,但奖励不是。