强化学习可以用于只获得一个最终奖励的任务吗?

人工智能 强化学习 奖励设计 稀疏奖励 信用分配问题 延迟奖励
2021-10-19 02:18:47

强化学习问题是否适用于只有一个 - 最终 - 奖励时的设置。我知道稀疏和延迟奖励的问题,但是只有一个奖励和很长的路径呢?

1个回答

RL 可用于奖励稀疏的情况(即几乎每一步所有奖励都为零),但在这种情况下,代理在轨迹期间获得的经验并不能提供有关动作质量的太多信息。

游戏通常可以表述为情节任务。例如,您可以将国际象棋比赛制定为一个情节,并且您可以仅在比赛结束时给予(非零)奖励。但是,在这种特定情况下,RL 将很难理解哪些动作主要促成了获得的奖励,这被称为信用分配问题

您可以通过奖励塑造(特别是潜在奖励塑造来解决奖励稀疏的问题。

术语“延迟奖励”也可能指您在剧集结束时仅获得一个奖励的情况,尽管它可能更通常指的是仅在以后(出于某种原因)才获得一次性步骤的奖励的情况.