人工智能 - 强化学习可以用于只获得一个最终奖励的任务吗？ - 吾爱随笔录

人工智能强化学习奖励设计稀疏奖励信用分配问题延迟奖励

2021-10-19 02:18:47

强化学习问题是否适用于只有一个 - 最终 - 奖励时的设置。我知道稀疏和延迟奖励的问题，但是只有一个奖励和很长的路径呢？

1个回答

RL 可用于奖励稀疏的情况（即几乎每一步所有奖励都为零），但在这种情况下，代理在轨迹期间获得的经验并不能提供有关动作质量的太多信息。

游戏通常可以表述为情节任务。例如，您可以将国际象棋比赛制定为一个情节，并且您可以仅在比赛结束时给予（非零）奖励。但是，在这种特定情况下，RL 将很难理解哪些动作主要促成了获得的奖励，这被称为信用分配问题。

您可以通过奖励塑造（特别是潜在奖励塑造）来解决奖励稀疏的问题。

术语“延迟奖励”也可能指您在剧集结束时仅获得一个奖励的情况，尽管它可能更通常指的是仅在以后（出于某种原因）才获得一次性步骤的奖励的情况.

其它你可能感兴趣的问题