问题描述:
假设我们有一个环境,在时间步的奖励不仅依赖于当前动作,还依赖于先前的动作,方式如下:
- 如果当前动作 == 上一个动作,您将获得奖励 =
- 如果当前动作 != 上一个动作,您将获得奖励 =
在这种环境下,切换动作需要付出巨大的代价。我们希望 RL 算法在切换动作代价高昂的约束下学习最优动作,即我们希望尽可能长时间地停留在选定的动作中。
惩罚明显高于即时奖励,所以如果我们不考虑它,模型评估将几乎 100% 的概率得到负的总奖励,因为代理会不断切换并从较小的环境中提取奖励比转换动作的成本。
动作空间很小(2 个动作:左、右)。我正在尝试用 PPO(近端策略优化)击败这个游戏
问题
如何解决这个限制:即明确地让代理知道转换是昂贵的,即使立即奖励是负面的,也值得坐在一个动作中?
如何让 RL 算法知道它不是奖励项这是负数,因此减少和,但它是惩罚项(采取与前一个动作不同的动作步骤)这会降低总奖励吗?