我试图更好地理解多臂强盗、上下文多臂强盗和马尔可夫决策过程。
基本上,多臂强盗是没有状态(特征/上下文)的上下文多臂强盗的特例。上下文多臂强盗是马尔可夫决策过程的一个特例,其中只有一个状态(特征,但没有转换)。
但是,由于 MDP 具有马尔可夫属性,我想知道如果我们简单地将每个状态视为不同的输入上下文(特征),是否每个 MDP 问题也可以转换为上下文多臂强盗问题?
我试图更好地理解多臂强盗、上下文多臂强盗和马尔可夫决策过程。
基本上,多臂强盗是没有状态(特征/上下文)的上下文多臂强盗的特例。上下文多臂强盗是马尔可夫决策过程的一个特例,其中只有一个状态(特征,但没有转换)。
但是,由于 MDP 具有马尔可夫属性,我想知道如果我们简单地将每个状态视为不同的输入上下文(特征),是否每个 MDP 问题也可以转换为上下文多臂强盗问题?
MDP 和上下文老虎机设置之间的主要区别在于时间步长和状态进展。如果这些对您要解决的问题很重要,则无法转换。
本质上,MDP 是对上下文强盗的严格概括。您可以将 CB 建模为 MDP,但反之则不行。
在某些非常特殊的情况下,您可以将 MDP 转换为 CB - 这些情况中的任何一种都意味着可以将 MDP 简化为 CB,然后您可以使用赌博机求解算法对其进行优化:
当一个偶发问题只有一个时间步时。
当折扣因子为零时。
当状态转换规则完全独立于动作选择时,但奖励不是。