如果一篇研究论文使用多臂老虎机(无论是标准形式还是上下文形式)来解决特定任务,我们可以说他们使用强化学习方法解决了这个任务吗?还是我们应该区分这两者并仅在与 MDP 公式相关时才使用 RL 术语?
事实上,每个 RL 课程/教科书通常都包含一个关于 bandits 的部分(尤其是在处理探索-利用权衡时)。此外,土匪也有行动和奖励的概念。
在描述这两种方法时,我只想确定正确的术语应该是什么。
如果一篇研究论文使用多臂老虎机(无论是标准形式还是上下文形式)来解决特定任务,我们可以说他们使用强化学习方法解决了这个任务吗?还是我们应该区分这两者并仅在与 MDP 公式相关时才使用 RL 术语?
事实上,每个 RL 课程/教科书通常都包含一个关于 bandits 的部分(尤其是在处理探索-利用权衡时)。此外,土匪也有行动和奖励的概念。
在描述这两种方法时,我只想确定正确的术语应该是什么。
一些重要的研究人员区分了老虎机问题和一般的强化学习问题。
《强化学习:萨顿和巴托的介绍》一书将强盗问题描述为一般 RL 问题的特例。
本书这一部分的第一章描述了强化学习问题的特殊情况的解决方法,其中只有一个状态,称为赌博机问题。第二章描述了我们在本书其余部分中处理的一般问题公式——有限马尔可夫决策过程——及其主要思想,包括贝尔曼方程和价值函数。
这意味着您可以将您的老虎机问题表示为具有单个状态和可能多个操作的 MDP。
在Bandit Algorithms (2020) 一书的 1.1.2 节中,Szepesvari 和 Lattimore 描述了 bandit 和强化学习之间的区别
本书研究的所有老虎机问题的显着特点之一是学习者永远不需要为未来做计划。更准确地说,我们总是假设学习者明天的可用选择和奖励不会受到他们今天的决定的影响。确实需要这种长期规划的问题属于强化学习领域
这个定义不同于萨顿和巴托的定义。在这种情况下,只考虑学习者不需要为未来做计划的老虎机问题。
无论如何,bandit 问题和 RL 问题有很多相似之处。例如,两者都试图处理探索-利用权衡,并且在这两种情况下,潜在问题都可以表述为马尔可夫决策过程。
让我们看一下第 2 章的介绍:强化学习中 的多臂强盗:Sutton, Barto 的介绍
将强化学习与其他类型的学习区分开来的最重要特征是,它使用训练信息来评估所采取的行动,而不是通过给出正确的行动来进行指导。这就是需要积极探索,明确搜索良好行为的原因。 纯粹的评价反馈表明所采取的行动有多好,而不是它是最好的还是最坏的行动。另一方面,纯粹的指导性反馈表明要采取的正确行动,与实际采取的行动无关。这种反馈是监督学习的基础,包括模式分类、人工神经网络和系统识别的大部分内容。在纯粹的形式中,这两种反馈是截然不同的:评价性反馈完全取决于所采取的行动,而指导性反馈独立于所采取的行动。在本章中,我们在简化的环境中研究强化学习的评估方面,一种不涉及学习在一种以上情况下采取行动的方法。这种非关联设置是大多数先前涉及评估反馈的工作已经完成的设置,它避免了完整强化学习问题的大部分复杂性。研究这个案例使我们能够最清楚地看到评价性反馈与指导性反馈有何不同,但又可以与指导性反馈相结合。我们探索的特定非关联、评估反馈问题是 k 臂老虎机问题的简单版本。我们使用这个问题来介绍一些我们在后面章节中扩展的基本学习方法,以应用于完整的强化学习问题. 在本章的最后,我们通过讨论当老虎机问题变得关联时会发生什么,即在不止一种情况下采取行动时会发生什么,从而更接近于完整的强化学习问题。
由于老虎机涉及评估反馈,它们确实是一种(简化的)强化学习问题。