从概念上讲,一般而言,与强化学习 (RL)中的状态相比,上下文强盗 (CB) 中的上下文是如何处理的?
具体来说,在 RL 中,我们可以使用函数逼近器(例如神经网络)来泛化到其他状态。在 CB 设置中这是否也是可能的或可取的?
一般来说,CB 中的上下文和RL中的状态之间有什么关系?
从概念上讲,一般而言,与强化学习 (RL)中的状态相比,上下文强盗 (CB) 中的上下文是如何处理的?
具体来说,在 RL 中,我们可以使用函数逼近器(例如神经网络)来泛化到其他状态。在 CB 设置中这是否也是可能的或可取的?
一般来说,CB 中的上下文和RL中的状态之间有什么关系?
强化学习中的状态概念(或多或少)与上下文强盗中的上下文概念相同。主要区别在于,在强化学习中,一个动作处于状态不仅影响奖励代理会得到,但它也会影响下一个状态代理最终会陷入,而在上下文强盗(又名关联搜索问题)中,一个动作在该州只影响奖励你会得到,但它不会影响代理最终进入的下一个状态。可以表述为上下文强盗问题的典型问题是推荐系统。
在 CB 中,就像在 RL 中一样,agent 也需要学习一个策略,即从状态到动作的函数,但是你在某个状态下采取的行动与你在其他状态下采取的行动无关。
因此,正如 Sutton 和 Barto 所说(第 2 版,第 2.9 节,第 41 页),上下文强盗是(无上下文)强盗(只有一个状态,或者等效地,根本没有状态)和完全强化学习问题。
许多 RL 算法(例如 Q-learning)的另一个重要特征是它们假设状态是Markov,即它包含采取最佳行动的所有必要信息,但是,当然,RL 不仅适用于完全可观察的 MDP . 事实上,甚至 Q-learning 也已应用于 POMDP,并带有一些近似值和技巧。
关于使用神经网络进行近似或 CB 中的政策,原则上这是可能的。然而,鉴于一个状态下的最优动作独立于另一个状态的最优动作,这可能没有用,但我不能保证这还没有成功,因为我还没有阅读相关文献(也许其他人会提供另一个答案来解决这方面的问题)。
从概念上讲,与 RL 中的状态相比,CB 中的上下文是如何处理的?
就其在上下文强盗和强化学习的描述中的位置而言,CB 中的上下文是 RL 中状态的精确模拟。RL 的框架是对 CB 的严格概括,可以通过几种不同的方式使其相似或相同:
如果代理仅针对即时奖励进行优化(折扣 fatcor),那么最优行动选择仅取决于当前状态而不考虑后果。但是,环境在多个时间步长上的行为可能不像上下文强盗,因此很难考虑适用于 CB 的优化类型(例如最小化遗憾)。
如果 RL 中的状态进展与选择的动作无关,那么最佳动作选择仅取决于当前状态。理解预期的状态进展以预测未来的奖励可能仍然有一些好处,并且了解不同状态的能力可能会受到进展的限制,因此这不是完全等价的,但非常接近。
如果 RL 中的状态进展与任何先前的历史(状态、动作、奖励)无关,并且状态在任何时间步都来自同一个群体,那么完整的 MDP 描述是不必要的,每个时间步都应该是最后。上下文老虎机模型可能更合适。
要考虑的另一件事是您的目标是研究环境或在其中应用代理。Bandit 求解器通常应用于期望智能体严格在线学习的环境,开发人员的目标是编写一个使用最少信息量来决定最优或接近最优选择的学习器。一个常见的衡量标准是最小化遗憾,或代理的行动选择与理想选择之间的预期回报差异。
如果您有离线数据可供使用,那么在 CB 环境中对最佳代理的预测将转为回归任务的监督学习。在 RL 中没有简单的等价物,因为动作会产生在状态之间建立联系的后果。因此,离线 RL 方法与在线 RL 方法非常相似——状态、动作、奖励数据的处理方式非常相似。