我过去研究过不同的算法,即DQN、DDQN、REINFORCE、A3C、PPO、TRPO等。今年夏天我正在实习,我必须使用多臂强盗(MAB)。我对 MAB 和上述其他算法有点困惑。
例如,MAB 和 REINFORCE 之间的主要区别是什么?MAB 与其他知名算法(DQN、A3C、PPO 等)之间的主要区别是什么?
编辑
@Kostya 的回答很好,但我很想对这个问题有更深入的回答。我还是有点困惑。
问题:我们是否使用马尔可夫奖励公式
我过去研究过不同的算法,即DQN、DDQN、REINFORCE、A3C、PPO、TRPO等。今年夏天我正在实习,我必须使用多臂强盗(MAB)。我对 MAB 和上述其他算法有点困惑。
例如,MAB 和 REINFORCE 之间的主要区别是什么?MAB 与其他知名算法(DQN、A3C、PPO 等)之间的主要区别是什么?
编辑
@Kostya 的回答很好,但我很想对这个问题有更深入的回答。我还是有点困惑。
问题:我们是否使用马尔可夫奖励公式
您应该从强化学习问题的一般定义开始。马尔可夫决策过程是什么。
DQN、A3C、PPO 和 REINFORCE 是解决强化学习问题的算法。这些算法有其优点和缺点,具体取决于潜在问题的细节。
Multi-Armed Bandit甚至不是一种算法——它是强化学习问题的一个子类,你的环境(通常)没有任何状态转换,你的动作只是(通常)固定和有限的一组选择中的一个选择.
Multi-Armed Bandit 被用作强化学习的入门问题,因为它说明了该领域的一些基本概念:探索-利用权衡、策略、目标估计、学习率和梯度优化。所有这些概念都是 RL 中的基本词汇。我建议阅读(并且,非常重要的是,做所有的练习)萨顿和巴托的书第二章来熟悉它。
编辑:由于答案很受欢迎,我将解决评论和问题编辑。
作为马尔可夫决策过程的一个特殊简化子集,多臂老虎机问题允许更深入的理论理解。例如,(根据@NeilSlater 的评论)最佳策略是始终选择最好的手臂。所以引入“遗憾”是有道理的- 潜在的最佳奖励与代理按照您的策略实际收集的奖励之间的差异:
然后可以研究这种遗憾的渐近行为作为并设计具有不同渐近特性的策略。可以看到,这里的奖励并没有打折() - 我们通常可以研究它的行为作为没有这个正则化。
虽然,有一个使用折扣奖励的著名结果 - Gittins 索引策略(但请注意,他们使用代替表示因子)。