强化学习中稀疏和密集奖励的优缺点是什么?

人工智能 强化学习 比较 奖励函数 稀疏奖励 密集奖励
2021-11-01 19:17:20

据我了解,如果奖励稀疏,代理将不得不进行更多探索以获得奖励并学习最佳策略,而如果奖励及时密集,则代理会迅速被引导至其学习目标。

上述想法是否正确,这两种对比设置是否还有其他优点和缺点?在旁注中,我觉得无法指定时间密集的奖励是模仿学习有用的原因。

1个回答

强化学习中稀疏和密集奖励的优缺点是什么?

将这种差异称为“优点和缺点”是不寻常的,因为该术语通常用于在差异选择之间进行比较。假设你有一个特定的问题要解决,那么无论奖励是自然稀疏还是密集都不是一个选择。您不能说“我想解决 MountainCar,我将使用密集奖励设置”,因为 MountainCar 具有(相对于起始问题)稀疏奖励。你只能说“我不会尝试 MountainCar,太难了”。

简而言之,您的评估是正确的:

如果奖励稀疏,则代理将不得不探索更多以获得奖励并学习最佳策略,而如果奖励及时密集,则代理将迅速被引导至其学习目标

在顶层实际上没有任何其他区别。从本质上讲,较少的奖励会导致更难解决的问题。所有 RL 算法都可以在一定程度上应对稀疏奖励,回报和价值备份的整个概念旨在在理论上处理稀疏性。然而,实际上,某些算法可能会花费不合理的时间来确定超出某些稀疏程度的良好策略。

在旁注中,我觉得无法指定时间密集的奖励是模仿学习有用的原因。

模仿学习是许多可用于解决或处理具有稀疏奖励结构的问题的技术之一。其他包括:

  • 奖励塑造,它尝试使用研究人员的领域知识将稀疏奖励方案转换为密集奖励方案。

  • 资格跟踪,支持跨多个时间步长的单个 TD 错误。

  • 优先扫描,重点更新“令人惊讶的”奖励数据。

  • 从当前状态展望未来的行动选择规划算法。

  • “好奇心”驱动的强化学习可以独立于任何奖励信号引导探索新的状态空间。