多臂老虎机与其他著名算法(DQN、A3C、PPO 等)之间的主要区别是什么?

人工智能 强化学习 比较 深度学习 多臂强盗
2021-10-28 08:52:11

我过去研究过不同的算法,即DQN、DDQN、REINFORCE、A3C、PPO、TRPO等。今年夏天我正在实习,我必须使用多臂强盗(MAB)。我对 MAB 和上述其他算法有点困惑。

例如,MAB 和 REINFORCE 之间的主要区别是什么?MAB 与其他知名算法(DQN、A3C、PPO 等)之间的主要区别是什么?

编辑

@Kostya 的回答很好,但我很想对这个问题有更深入的回答。我还是有点困惑。

问题:我们是否使用马尔可夫奖励公式

Gt=Rt+1+γRt+2+...=k=0γkRt+k+1
多臂老虎机问题与 DQN 问题的方式相同吗?

1个回答

您应该从强化学习问题的一般定义开始。马尔可夫决策过程是什么

DQN、A3C、PPO 和 REINFORCE 是解决强化学习问题的算法。这些算法有其优点和缺点,具体取决于潜在问题的细节。

Multi-Armed Bandit甚至不是一种算法——它是强化学习问题的一个子类,你的环境(通常)没有任何状态转换,你的动作只是(通常)固定和有限的一组选择中的一个选择.

Multi-Armed Bandit 被用作强化学习的入门问题,因为它说明了该领域的一些基本概念:探索-利用权衡、策略、目标估计、学习率和梯度优化。所有这些概念都是 RL 中的基本词汇。我建议阅读(并且,非常重要的是,做所有的练习)萨顿和巴托的书第二章来熟悉它。

编辑:由于答案很受欢迎,我将解决评论和问题编辑

作为马尔可夫决策过程的一个特殊简化子集,多臂老虎机问题允许更深入的理论理解。例如,(根据@NeilSlater 的评论)最佳策略是始终选择最好的手臂。所以引入“遗憾”是有道理的ρ- 潜在的最佳奖励与代理按照您的策略实际收集的奖励之间的差异:

ρ(T)=E[Tμt=1Tμ(at)]

然后可以研究这种遗憾的渐近行为作为T并设计具有不同渐近特性的策略。可以看到,这里的奖励并没有打折(γ=1) - 我们通常可以研究它的行为作为T没有这个正则化。

虽然,有一个使用折扣奖励的著名结果 - Gittins 索引策略(但请注意,他们使用β代替γ表示因子)。