人工智能 - 您可以将 MDP 问题转换为上下文多臂强盗问题吗？ - 吾爱随笔录

人工智能强化学习比较马尔可夫决策过程多臂强盗上下文强盗

2021-11-11 11:52:42

我试图更好地理解多臂强盗、上下文多臂强盗和马尔可夫决策过程。

基本上，多臂强盗是没有状态（特征/上下文）的上下文多臂强盗的特例。上下文多臂强盗是马尔可夫决策过程的一个特例，其中只有一个状态（特征，但没有转换）。

但是，由于 MDP 具有马尔可夫属性，我想知道如果我们简单地将每个状态视为不同的输入上下文（特征），是否每个 MDP 问题也可以转换为上下文多臂强盗问题？

1个回答

MDP 和上下文老虎机设置之间的主要区别在于时间步长和状态进展。如果这些对您要解决的问题很重要，则无法转换。

本质上，MDP 是对上下文强盗的严格概括。您可以将 CB 建模为 MDP，但反之则不行。

在某些非常特殊的情况下，您可以将 MDP 转换为 CB - 这些情况中的任何一种都意味着可以将 MDP 简化为 CB，然后您可以使用赌博机求解算法对其进行优化：

其它你可能感兴趣的问题